[linux] url offline extraheren

Fred linuks op freedom.nl
Za Nov 26 11:08:05 CET 2022


Ik ben onvolledig geweest met mijn vraagstelling. Ik heb niet duidelijk 
gemaakt dat het mij ging om de source van de url uit de (alle) html 
pagina's.
De dump optie met lynx geeft wel een mooi tekstueel overzicht van de 
urls in de pagina maar niet de broncode. Misschien met een andere optie 
maar dat ga ik nog bekijken.
De opmerking van Daniel met XSTL heeft me iets nieuws laten zien maar ik 
ben er niet zeker van of dit de quick and dirty oplossing brengt die ik 
voor ogen had.
SED ga ik dit weekeind nog even naar duckducken.

gr Fred

Op 25-11-2022 om 18:19 schreef Geert Stappers via Linux:
> On Fri, Nov 25, 2022 at 05:30:51PM +0100, Daniel C. von Asmuth via Linux wrote:
>> Aldus schreef Fred via Linux op Fri, Nov 25, 2022 at 05:12:36PM +0100:
>>>     Beste lijst,
>>>
>>>     Ik wil graag uit een aantal html pagina’s die lokaal in een ~/intranet dir
>>>     staan de urls kopieren.
>>>     Het doel hiervan is deze dan te gebruiken als index of sitemap zodat ik
>>>     sneller kan vinden wat ik zoek.
>>>
>>>     Met de weinig tot geen kennis of ervaring met de cli heb ik een poging
>>>     gedaan met grep -i "<a href" *.html.
>>>
>>>     Dit geeft dan veel regels terug even zoveel minder relevante informatie.
>>>
>>>     Kan iemand mij wat tips geven om de urls met grep of een ander (offline)
>>>     hulpmiddel specifieker te filteren?
>>>
>>>     Gr Fred
>> Met de standaard Unix-tools (die we in de Vrijbrief beschreven) kom je niet
>> ver omdat de meeste van die tools regel-georiënteerd zijn en een stuk HTML
>> code een boel URLs op een regel kan hebben.
>>
>> XSLT is een betere,
> En heb je daar een voorbeeld toepassing van?
> Iets om original poster op weg te helpen.
>
>
>> of je maakt slim gebruik van SED.
>   
> Die snap ik ook niet. Wel ken ik `sed`.
> Waar meer over de bedoelde SED te vinden?
> Mocht er sed(1) bedoelt zijn, vooral uitspreken.
>
>
>> Suc6,
>>
>>
>> Daniel
>> 	
>> 	How long it takes to reach your goal
>> 	depends less on your speed than on your direction.
>>
> Daarom is het belangrijk om de mensen de juist richting in te sturen.
>
>
>
> Groeten
> Geert Stappers


Meer informatie over de Linux maillijst