[linux] url offline extraheren

Geert Stappers stappers op stappers.nl
Vr Nov 25 18:19:28 CET 2022


On Fri, Nov 25, 2022 at 05:30:51PM +0100, Daniel C. von Asmuth via Linux wrote:
> Aldus schreef Fred via Linux op Fri, Nov 25, 2022 at 05:12:36PM +0100:
> >    Beste lijst,
> > 
> >    Ik wil graag uit een aantal html pagina’s die lokaal in een ~/intranet dir
> >    staan de urls kopieren.
> >    Het doel hiervan is deze dan te gebruiken als index of sitemap zodat ik
> >    sneller kan vinden wat ik zoek.
> > 
> >    Met de weinig tot geen kennis of ervaring met de cli heb ik een poging
> >    gedaan met grep -i "<a href" *.html.
> > 
> >    Dit geeft dan veel regels terug even zoveel minder relevante informatie.
> > 
> >    Kan iemand mij wat tips geven om de urls met grep of een ander (offline)
> >    hulpmiddel specifieker te filteren?
> > 
> >    Gr Fred
> 
> Met de standaard Unix-tools (die we in de Vrijbrief beschreven) kom je niet
> ver omdat de meeste van die tools regel-georiënteerd zijn en een stuk HTML
> code een boel URLs op een regel kan hebben.
> 
> XSLT is een betere,

En heb je daar een voorbeeld toepassing van?
Iets om original poster op weg te helpen.


> of je maakt slim gebruik van SED.
 
Die snap ik ook niet. Wel ken ik `sed`.
Waar meer over de bedoelde SED te vinden?
Mocht er sed(1) bedoelt zijn, vooral uitspreken.


> Suc6,
> 
> 
> Daniel 
> 	
> 	How long it takes to reach your goal
> 	depends less on your speed than on your direction.
> 

Daarom is het belangrijk om de mensen de juist richting in te sturen.



Groeten
Geert Stappers
-- 
Silence is hard to parse


Meer informatie over de Linux maillijst