[linux] url offline extraheren

Daniel C. von Asmuth asmuth op vonasmuth.nl
Vr Nov 25 17:30:51 CET 2022


Aldus schreef Fred via Linux op Fri, Nov 25, 2022 at 05:12:36PM +0100:
>    Beste lijst,
> 
>    Ik wil graag uit een aantal html pagina’s die lokaal in een ~/intranet dir
>    staan de urls kopieren.
>    Het doel hiervan is deze dan te gebruiken als index of sitemap zodat ik
>    sneller kan vinden wat ik zoek.
> 
>    Met de weinig tot geen kennis of ervaring met de cli heb ik een poging
>    gedaan met grep -i "<a href" *.html.
> 
>    Dit geeft dan veel regels terug even zoveel minder relevante informatie.
> 
>    Kan iemand mij wat tips geven om de urls met grep of een ander (offline)
>    hulpmiddel specifieker te filteren?
> 
>    Gr Fred

Met de standaard Unix-tools (die we in de Vrijbrief beschreven) kom je niet
ver omdat de meeste van die tools regel-georiënteerd zijn en een stuk HTML
code een boel URLs op een regel kan hebben.

XSLT is een betere, of je maakt slim gebruik van SED.

Suc6,



Daniel 

-- 
	
		How long it takes to reach your goal
		depends less on your speed than on your direction.


Meer informatie over de Linux maillijst