[linux] awk en performance

Do Mrt 13 17:45:36 CET 2008

Ik ben een awk script aan het schrijven om een log bestand te
interpreteren. Hiermee genereer ik overzichten per veld (drie stuks).
Het gaat om een kleine miljoen regels logging. Van de verschillende
velden, wil ik per waarde weten hoe vaak deze voorkomt. Dit duurde erg
lang. Daarom ben ik dus gaan kijken hoe dit te optimaliseren.
Uiteindelijk bleek dat door het overzicht per veld te creëren, de
performance fors omhoog ging. (Een factor drie tot vier sneller.) En nu
wordt het bestand dus wel drie keer gescanned i.p.v. één keer. Op zich
zou ik me hier iets bij voor kunnen stellen als er een geheugen probleem
zou zijn, maar tijdens het draaien van het oorspronkelijke script was
het swap gebruik precies nul. Dus iemand een idee waar dit aan zou
kunnen liggen?

-- 
Cecil Westerhof <CecilWesterhof op xs4all.nl>