[linux] Re: Sinds SuSE 10,1->10.2: machine loopt 100% vol =>

Peter Vollebregt peter.vollebregt op gmail.com
Za Feb 17 23:14:01 CET 2007


Hans Paijmans schreef:
> Hugo van der Kooij wrote:
> ...
>
>   
>> De aanpak van slocate is leuk als je een bestand zoekt. Maar meer dan dat 
>> staat er niet in.
>>
>> Bakbeesten als beagle trekken elk bestand open en indexeren op basis van 
>> de inhoud van het bestand. Dat is een behoorlijk andere aanpak. Want 
>> hoelang doe je er over om 300 GB te lezen en te indexeren?
>>
>> Windows loopt voorop maar ook gnome/kde/.... applicaties zorgen er voor 
>> dat mensen geen flauw benul meer hebben waar hun data eigenlijk is. Allen 
>> door een index kunnen mensen dan hun eigen meuk nog terugvinden.
>>     
>
> Ik heb nooit specifiek naar beagle gekeken, maar welke werktuigen
> biedt het om het evenwicht tussen precision en recall in de hand
> te houden?
>
> Deze vraag stel ik ook uit professionele interesse.
>
>   
Beagle heb ik geprobeerd (net als kat - maar die is een beetje dood
volgens mij), maar de ratio tussen load en wat het opleverde was erg
slecht (het kan zijn dat ik er niet mee om kan gaan misschien).

Een veel handzamere zoekmachine (volgens mij) is 'recoll'  - lang niet
zo bekend, maar met veel minder aanslag op je systeem. Ik doe af en toe
een batchgewijze herindexering die ongeveer net zoveel tijd vraagt als
updatedb. Ik heb aangegeven welke partities doorzocht moeten worden, en
welke filetypes overgeslagen. etc.

Recoll werkt ook met 'stemming' (taalgevoelige corectie - dutch
included). Het is gebaseerd op xapian. Voor jouw doeleinden misschien
een leuk vehikel. Zie http://www.xapian.org/

Hoe het werkt - ie hier:
http://www.lesbonscomptes.com/recoll/usermanual/index.html
Korte omschrijving: http://www.kde-apps.org/content/show.php?content=52353

Peter




More information about the Linux mailing list