[linux] Bayesian tip
Hugo van der Kooij
hvdkooij op vanderkooij.org
Do Jan 18 23:20:13 CET 2007
Hoi,
Een praktijk tip voor gebruikers van een bayesian filter.
Let even op hoe je je filter dresseert. Bewaar HAM en SPAM berichten in
voldoende mate om er een rebuild mee te kunnen doen.
Want ....
Je kan de filter overvoeren en dan worden ze erg ondoelmatig. Praktijk
waardes zijn dat je bij meer dan 1000 SPAM of meer dan 1000 HAM berichten
eens achter je oren moet krabben of je filter nog wel goed getuned is.
Advies is om te beginnen met omstreek 250 SPAM en 250 HAM berichten en
maar spaarzaam extra berichten als leer materiaal aan te bieden. Pak dan
alleen enkele exemplaren die duidelijk fout geclassificeerd zijn. Dus voer
iets met meer dan 50% terug als het helemaal geen SPAM is als HAM en
omgekeerd.
Behalve thuis is dit op een reeks boxen in het veld met dezelfde
technieken gebleken dat je dit in de gaten moet houden en soms blijkt dat
je beter je database opnieuw kan opbouwen dan micro wijzigingen voor
elkaar te krijgen met bakken extra berichten op te voeren.
Hugo.
--
hvdkooij op vanderkooij.org http://hvdkooij.xs4all.nl/
This message is using 100% recycled electrons.
More information about the Linux
mailing list