[linux] url offline extraheren
Daniel C. von Asmuth
asmuth op vonasmuth.nl
Vr Nov 25 17:30:51 CET 2022
Aldus schreef Fred via Linux op Fri, Nov 25, 2022 at 05:12:36PM +0100:
> Beste lijst,
>
> Ik wil graag uit een aantal html pagina’s die lokaal in een ~/intranet dir
> staan de urls kopieren.
> Het doel hiervan is deze dan te gebruiken als index of sitemap zodat ik
> sneller kan vinden wat ik zoek.
>
> Met de weinig tot geen kennis of ervaring met de cli heb ik een poging
> gedaan met grep -i "<a href" *.html.
>
> Dit geeft dan veel regels terug even zoveel minder relevante informatie.
>
> Kan iemand mij wat tips geven om de urls met grep of een ander (offline)
> hulpmiddel specifieker te filteren?
>
> Gr Fred
Met de standaard Unix-tools (die we in de Vrijbrief beschreven) kom je niet
ver omdat de meeste van die tools regel-georiënteerd zijn en een stuk HTML
code een boel URLs op een regel kan hebben.
XSLT is een betere, of je maakt slim gebruik van SED.
Suc6,
Daniel
--
How long it takes to reach your goal
depends less on your speed than on your direction.
Meer informatie over de Linux
maillijst