[linux] ijverige webcrawlers of toch niet

Joost van Baal-Ilić joostvb-nllgg op mdcc.cx
Wo Mrt 12 07:06:52 CET 2025


Hoi Geert e.a.,

On Tue, Mar 11, 2025 at 10:31:25PM +0100, Geert Stappers via Linux wrote:
> 
> Dat vorige week de NLLGG website nogal wat onderbrekingen kende
> was best vervelend.
> 
> De Out of Memory killer stopte de database server om geheugen
> vrij te krijgen voor andere processen. Door setting 'OOMScoreAdjust=-600'
> blijft nu de OOM-killer van de database server af.
> 
> Welke webrequests de server zo ver kregen dat er ingegrepen werd,
> daar hebben wij, NLLGG server beheer commissie, graag hulp bij.
> 
> De Apache log files en tijdstippen van OOM ingreep staan
> op https://gitlab.com/nllgg/apache_log_mariadb_oom_killed
> 
> Met behulp van
>   git clone https://gitlab.com/nllgg/apache_log_mariadb_oom_killed.git
> heb je een kopie. Bijvoorbeeld om jouw analyze tools er op los te laten.
> 
> Het vermoeden is dat overijverige webcrawlers de oorzaak zijn,
> maar of dat ook echt zo is???

Zonder naar de logs gekeken te hebben: ik hoor de laatste tijd veel klachten
over overijverige webcrawlers die data verzamelen om aan de LLM-machinerie te
voeren.  En die negeren helaas nogal eens robots.txt-aanwijzingen :(  IP-based
blocklists zouden kunnen helpen.

My € 0,02 voor nu; HTH!

Groeten,

Joost


Meer informatie over de Linux maillijst