[linux] ijverige webcrawlers of toch niet

Joost van Baal-Ilić joostvb-nllgg op mdcc.cx
Vr Mrt 14 11:08:47 CET 2025


Hoi hoi,


On Wed, Mar 12, 2025 at 07:06:52AM +0100, Joost van Baal-Ilić via Linux wrote:
> On Tue, Mar 11, 2025 at 10:31:25PM +0100, Geert Stappers via Linux wrote:
> > 
> > Dat vorige week de NLLGG website nogal wat onderbrekingen kende
> > was best vervelend.
> > 
> > De Out of Memory killer stopte de database server om geheugen
> > vrij te krijgen voor andere processen. Door setting 'OOMScoreAdjust=-600'
> > blijft nu de OOM-killer van de database server af.
> > 
> > Welke webrequests de server zo ver kregen dat er ingegrepen werd,
> > daar hebben wij, NLLGG server beheer commissie, graag hulp bij.
> > 
> > De Apache log files en tijdstippen van OOM ingreep staan
> > op https://gitlab.com/nllgg/apache_log_mariadb_oom_killed
> > 
> > Met behulp van
> >   git clone https://gitlab.com/nllgg/apache_log_mariadb_oom_killed.git
> > heb je een kopie. Bijvoorbeeld om jouw analyze tools er op los te laten.
> > 
> > Het vermoeden is dat overijverige webcrawlers de oorzaak zijn,
> > maar of dat ook echt zo is???
> 
> Zonder naar de logs gekeken te hebben: ik hoor de laatste tijd veel klachten
> over overijverige webcrawlers die data verzamelen om aan de LLM-machinerie te
> voeren.  En die negeren helaas nogal eens robots.txt-aanwijzingen :(  IP-based
> blocklists zouden kunnen helpen.

O, en daarnaast is er tegenwoordig ook nog
https://xeiaso.net/blog/2025/anubis/ om LLM crawlers te bevechten.
(Maar of dat in _dit_ geval direct veel oplevert betwijfel ik...)

Groeten,

Joost



Meer informatie over de Linux maillijst