[linux] ijverige webcrawlers of toch niet
Geert Stappers
geert.stappers op nllgg.nl
Wo Mrt 19 21:28:03 CET 2025
Op Fri, Mar 14, 2025 at 01:56:52PM +0100, Paul Slootman via Linux schreef:
> On Tue 11 Mar 2025, Geert Stappers via Linux wrote:
>
> > De Apache log files en tijdstippen van OOM ingreep staan op >
> https://gitlab.com/nllgg/apache_log_mariadb_oom_killed
>
> > Het vermoeden is dat overijverige webcrawlers de oorzaak zijn, >
> maar of dat ook echt zo is???
>
> Eigenlijk zie ik nooit iets bijzonders rond de OOM tijden. Alleen dat
> dan de webserver HTTP code 408 geeft.
>
> De fout "Request exceeded the limit of 10 internal redirects due to
> probable configuration error." komt wel heel veel voor. Ook "Maximum
> execution time of 30 seconds exceeded"; dat zou niet door zomaar een
> request mogen komen.
Tja, het bezwijken van een webserver in slow motion ...
> Ik zie ook de IP's uit wordpress_multisite_nllgg-error.log nergens
> terug in de access logs? Of zijn ze per file opnieuw geanonymiseerd?
De README.md in git repo heeft o.a.
awk '{ print $1 }' *access.log | sort --uniq | ./generate_sed_script
en in een volgende stap wordt `sed` losgelaten op alle logbestanden.
Nee, niet per file opnieuw geanonymiseerd.
Per Apache vhost is er aparte logging. Mijn inschatting is dat
de vhost bevraagd wordt, niet het IP-adres.
> PHP Warning: PHP Startup: Unable to load dynamic library 'mysqli'
> (tried: /usr/lib/php/20220829/mysqli (/usr/lib/php/20220829/mysqli:
> cannot open shared object file: No such file or directory),
> /usr/lib/php/20220829/mysqli.so (/usr/lib/php/20220829/mysqli.so:
> undefined symbol: mysqlnd_global_stats))
>
> klinkt ook niet gezond.
>
> Is de server wel correct gedimensioneerd?
Alleen gedimensioneerd voor correct gebruik 8^)
> Ik heb nog nooit een mysql server gekilled zien worden door OOM.
Ik heb me laten vertellen dat het vaker voorkomt.
> Hebben alle tables wel de juiste indexen? Nu ren ik zelf altijd hard weg
> bij wordpress, wat een drama is dat meestal; in mijn ervaring enablen
> webdevs altijd allerlei mogelijke plugins waardoor het traag wordt;
> dat lijkt hier wel mee te vallen.
>
> Ik zou zelf gaan kijken of alle foutmeldingen op te lossen zijn door
> configuratie aanpassingen.
Ja, "achter de schermen" wordt aan verbetering gewerkt.
Ik sta er gelukkig niet alleen voor.
> Zelf gebruik ik altijd haproxy voor apache, ten eerste om SSL offloading
> te doen (ik heb altijd wat ruzie met apache's SSL config), maar ook
> is haproxy heel robuust tegen allerlei netwerk shit. Zo voorkom je al
> dat het nodig bij apache aankomt.
Dat is wel een goed idee, "front" is wel de goede plaats
om overijverige webcrawlers te detecteren. En het backend wat achter het
front zit inrichten alsof er geen stoute mensen op Internet zitten.
> Paul
Groeten
Geert Stappers
P.S.
off-list kreeg ik "maak me maar root, dan help ik je wel"
Zulke berichten a.u.b. naar beheer apestaart nllgg punt nl.
--
Silence is hard to parse
Meer informatie over de Linux
maillijst