[linux] url offline extraheren
Fred
linuks op freedom.nl
Za Nov 26 17:27:53 CET 2022
Op 26-11-2022 om 12:41 schreef Guus Snijders via Linux:
> Op za 26 nov. 2022 11:08 schreef Fred via Linux <linux op lists.nllgg.nl>:
>
> Ik ben onvolledig geweest met mijn vraagstelling. Ik heb niet
> duidelijk
> gemaakt dat het mij ging om de source van de url uit de (alle) html
> pagina's.
> De dump optie met lynx geeft wel een mooi tekstueel overzicht van de
> urls in de pagina maar niet de broncode.
>
>
> Ok, dus bij een link naar https://www.nllgg.nl wil jij dan meer iets
> als <a href=https://www.nllgg.nl>www.nllgg.nl
> <http://www.nllgg.nl></a>, maar dan wel met alle attributen van dit a
> element.
>
> Dus meer in de zin van alle HTML elementen van bepaald type (in dit
> voorbeeld dus een A tag).
Klopt, dat is de bedoeling.
>
>
> Even googlen leverde deze link op:
> https://stackoverflow.com/questions/68153733/parse-html-using-awk
>
> Awk zou ook mijn eerste gedachte zijn, maar misschien is hxselect hier
> ook juist interessant (geen ervaring mee, maar de documentatie lijkt
> veelbelovend).
>
>
>
> Mvg, Guus
>
Ik ga hier ook mee aan de slag. Als ik een voor mij werkende oplossing
heb gevonden dan koppel ik dat hier nog terug.
Tot zover bedankt voor jullie input.
mvg, Fred
------------- volgend deel ------------
Een HTML-bijlage is gescrubt...
URL: <https://lists.nllgg.nl/pipermail/linux/attachments/20221126/b57ed01e/attachment.htm>
Meer informatie over de Linux
maillijst