[linux] url offline extraheren

Fred linuks op freedom.nl
Za Nov 26 17:27:53 CET 2022


Op 26-11-2022 om 12:41 schreef Guus Snijders via Linux:
> Op za 26 nov. 2022 11:08 schreef Fred via Linux <linux op lists.nllgg.nl>:
>
>     Ik ben onvolledig geweest met mijn vraagstelling. Ik heb niet
>     duidelijk
>     gemaakt dat het mij ging om de source van de url uit de (alle) html
>     pagina's.
>     De dump optie met lynx geeft wel een mooi tekstueel overzicht van de
>     urls in de pagina maar niet de broncode.
>
>
> Ok, dus bij een link naar https://www.nllgg.nl wil jij dan meer iets 
> als <a href=https://www.nllgg.nl>www.nllgg.nl 
> <http://www.nllgg.nl></a>, maar dan wel met alle attributen van dit a 
> element.
>
> Dus meer in de zin van alle HTML elementen van bepaald type (in dit 
> voorbeeld dus een A tag).

Klopt, dat is de bedoeling.

>
>
> Even googlen leverde deze link op: 
> https://stackoverflow.com/questions/68153733/parse-html-using-awk
>
> Awk zou ook mijn eerste gedachte zijn, maar misschien is hxselect hier 
> ook juist interessant (geen ervaring mee, maar de documentatie lijkt 
> veelbelovend).
>
>
>
> Mvg, Guus
>
Ik ga hier ook mee aan de slag. Als ik een voor mij werkende oplossing 
heb gevonden dan koppel ik dat hier nog terug.
Tot zover bedankt voor jullie input.


mvg, Fred
------------- volgend deel ------------
Een HTML-bijlage is gescrubt...
URL: <https://lists.nllgg.nl/pipermail/linux/attachments/20221126/b57ed01e/attachment.htm>


Meer informatie over de Linux maillijst