[linux] url offline extraheren

Guus Snijders gsnijders op gmail.com
Za Nov 26 12:41:52 CET 2022


Op za 26 nov. 2022 11:08 schreef Fred via Linux <linux op lists.nllgg.nl>:

> Ik ben onvolledig geweest met mijn vraagstelling. Ik heb niet duidelijk
> gemaakt dat het mij ging om de source van de url uit de (alle) html
> pagina's.
> De dump optie met lynx geeft wel een mooi tekstueel overzicht van de
> urls in de pagina maar niet de broncode.
>

Ok, dus bij een link naar https://www.nllgg.nl wil jij dan meer iets als <a
href=https://www.nllgg.nl>www.nllgg.nl</a>, maar dan wel met alle
attributen van dit a element.

Dus meer in de zin van alle HTML elementen van bepaald type (in dit
voorbeeld dus een A tag).


Even googlen leverde deze link op:
https://stackoverflow.com/questions/68153733/parse-html-using-awk

Awk zou ook mijn eerste gedachte zijn, maar misschien is hxselect hier ook
juist interessant (geen ervaring mee, maar de documentatie lijkt
veelbelovend).



Mvg, Guus
------------- volgend deel ------------
Een HTML-bijlage is gescrubt...
URL: <https://lists.nllgg.nl/pipermail/linux/attachments/20221126/84c7b440/attachment.htm>


Meer informatie over de Linux maillijst