[linux] ijverige webcrawlers of toch niet
Joost van Baal-Ilić
joostvb-nllgg op mdcc.cx
Wo Mrt 12 07:06:52 CET 2025
Hoi Geert e.a.,
On Tue, Mar 11, 2025 at 10:31:25PM +0100, Geert Stappers via Linux wrote:
>
> Dat vorige week de NLLGG website nogal wat onderbrekingen kende
> was best vervelend.
>
> De Out of Memory killer stopte de database server om geheugen
> vrij te krijgen voor andere processen. Door setting 'OOMScoreAdjust=-600'
> blijft nu de OOM-killer van de database server af.
>
> Welke webrequests de server zo ver kregen dat er ingegrepen werd,
> daar hebben wij, NLLGG server beheer commissie, graag hulp bij.
>
> De Apache log files en tijdstippen van OOM ingreep staan
> op https://gitlab.com/nllgg/apache_log_mariadb_oom_killed
>
> Met behulp van
> git clone https://gitlab.com/nllgg/apache_log_mariadb_oom_killed.git
> heb je een kopie. Bijvoorbeeld om jouw analyze tools er op los te laten.
>
> Het vermoeden is dat overijverige webcrawlers de oorzaak zijn,
> maar of dat ook echt zo is???
Zonder naar de logs gekeken te hebben: ik hoor de laatste tijd veel klachten
over overijverige webcrawlers die data verzamelen om aan de LLM-machinerie te
voeren. En die negeren helaas nogal eens robots.txt-aanwijzingen :( IP-based
blocklists zouden kunnen helpen.
My € 0,02 voor nu; HTH!
Groeten,
Joost
Meer informatie over de Linux
maillijst