[linux] Re: awk en performance

Do Mrt 13 18:24:23 CET 2008

Op do, 13-03-2008 te 18:02 +0100, schreef Paul Slootman:
> On Thu 13 Mar 2008, Cecil Westerhof wrote:
> 
> > Uiteindelijk bleek dat door het overzicht per veld te creëren, de
> > performance fors omhoog ging. (Een factor drie tot vier sneller.) En nu
> > wordt het bestand dus wel drie keer gescanned i.p.v. één keer. Op zich
> > zou ik me hier iets bij voor kunnen stellen als er een geheugen probleem
> > zou zijn, maar tijdens het draaien van het oorspronkelijke script was
> > het swap gebruik precies nul. Dus iemand een idee waar dit aan zou
> > kunnen liggen?
> 
> Niet zonder biede versies van het script te zien.

Ben er de laatste hand aan het leggen. Als dat klaar is post ik het wel.
(En moet ik de oude versie weer genereren.)

Maar eigenlijk bedoelde ik het -ook- algemener. Hoe een script op te
zetten en waar op te letten? Normaal gesproken is IO de beperkende
faktor, vandaar dat ik nogal verbaasd was.

> Overigens vind ik perl voor dit soort dingen vaak aanzienlijk sneller.

Zelf zou ik dan eerder voor Python gaan. Maar je weet hoe het gaat: je
doet even snel een kleinigheid (en dan is awk prima), maar gaandeweg wil
je alsmaar meer. ;-}
Wat ook -een beetje- meespeelt  is dat bash, awk , etc. standaard tools
zijn en dan kun je dit soort scripts als handson gebruiken.
Misschien is dat trouwens ook een exercitie: omzetten naar Python. Dat
zou wel eens fors sneller kunnen zijn.

-- 
Cecil Westerhof <CecilWesterhof op xs4all.nl>