[linux] ijverige webcrawlers of toch niet
Joost van Baal-Ilić
joostvb-nllgg op mdcc.cx
Vr Mrt 14 11:08:47 CET 2025
Hoi hoi,
On Wed, Mar 12, 2025 at 07:06:52AM +0100, Joost van Baal-Ilić via Linux wrote:
> On Tue, Mar 11, 2025 at 10:31:25PM +0100, Geert Stappers via Linux wrote:
> >
> > Dat vorige week de NLLGG website nogal wat onderbrekingen kende
> > was best vervelend.
> >
> > De Out of Memory killer stopte de database server om geheugen
> > vrij te krijgen voor andere processen. Door setting 'OOMScoreAdjust=-600'
> > blijft nu de OOM-killer van de database server af.
> >
> > Welke webrequests de server zo ver kregen dat er ingegrepen werd,
> > daar hebben wij, NLLGG server beheer commissie, graag hulp bij.
> >
> > De Apache log files en tijdstippen van OOM ingreep staan
> > op https://gitlab.com/nllgg/apache_log_mariadb_oom_killed
> >
> > Met behulp van
> > git clone https://gitlab.com/nllgg/apache_log_mariadb_oom_killed.git
> > heb je een kopie. Bijvoorbeeld om jouw analyze tools er op los te laten.
> >
> > Het vermoeden is dat overijverige webcrawlers de oorzaak zijn,
> > maar of dat ook echt zo is???
>
> Zonder naar de logs gekeken te hebben: ik hoor de laatste tijd veel klachten
> over overijverige webcrawlers die data verzamelen om aan de LLM-machinerie te
> voeren. En die negeren helaas nogal eens robots.txt-aanwijzingen :( IP-based
> blocklists zouden kunnen helpen.
O, en daarnaast is er tegenwoordig ook nog
https://xeiaso.net/blog/2025/anubis/ om LLM crawlers te bevechten.
(Maar of dat in _dit_ geval direct veel oplevert betwijfel ik...)
Groeten,
Joost
Meer informatie over de Linux
maillijst