[linux] Bayesian tip

Hugo van der Kooij hvdkooij op vanderkooij.org
Do Jan 18 23:20:13 CET 2007


Hoi,

Een praktijk tip voor gebruikers van een bayesian filter.

Let even op hoe je je filter dresseert. Bewaar HAM en SPAM berichten in 
voldoende mate om er een rebuild mee te kunnen doen.

Want ....

Je kan de filter overvoeren en dan worden ze erg ondoelmatig. Praktijk 
waardes zijn dat je bij meer dan 1000 SPAM of meer dan 1000 HAM berichten 
eens achter je oren moet krabben of je filter nog wel goed getuned is.

Advies is om te beginnen met omstreek 250 SPAM en 250 HAM berichten en 
maar spaarzaam extra berichten als leer materiaal aan te bieden. Pak dan 
alleen enkele exemplaren die duidelijk fout geclassificeerd zijn. Dus voer 
iets met meer dan 50% terug als het helemaal geen SPAM is als HAM en 
omgekeerd.

Behalve thuis is dit op een reeks boxen in het veld met dezelfde 
technieken gebleken dat je dit in de gaten moet houden en soms blijkt dat 
je beter je database opnieuw kan opbouwen dan micro wijzigingen voor 
elkaar te krijgen met bakken extra berichten op te voeren.

Hugo.

-- 
 	hvdkooij op vanderkooij.org	http://hvdkooij.xs4all.nl/
 	    This message is using 100% recycled electrons.



More information about the Linux mailing list