[linux] url offline extraheren
Geert Stappers
stappers op stappers.nl
Vr Nov 25 18:19:28 CET 2022
On Fri, Nov 25, 2022 at 05:30:51PM +0100, Daniel C. von Asmuth via Linux wrote:
> Aldus schreef Fred via Linux op Fri, Nov 25, 2022 at 05:12:36PM +0100:
> > Beste lijst,
> >
> > Ik wil graag uit een aantal html pagina’s die lokaal in een ~/intranet dir
> > staan de urls kopieren.
> > Het doel hiervan is deze dan te gebruiken als index of sitemap zodat ik
> > sneller kan vinden wat ik zoek.
> >
> > Met de weinig tot geen kennis of ervaring met de cli heb ik een poging
> > gedaan met grep -i "<a href" *.html.
> >
> > Dit geeft dan veel regels terug even zoveel minder relevante informatie.
> >
> > Kan iemand mij wat tips geven om de urls met grep of een ander (offline)
> > hulpmiddel specifieker te filteren?
> >
> > Gr Fred
>
> Met de standaard Unix-tools (die we in de Vrijbrief beschreven) kom je niet
> ver omdat de meeste van die tools regel-georiënteerd zijn en een stuk HTML
> code een boel URLs op een regel kan hebben.
>
> XSLT is een betere,
En heb je daar een voorbeeld toepassing van?
Iets om original poster op weg te helpen.
> of je maakt slim gebruik van SED.
Die snap ik ook niet. Wel ken ik `sed`.
Waar meer over de bedoelde SED te vinden?
Mocht er sed(1) bedoelt zijn, vooral uitspreken.
> Suc6,
>
>
> Daniel
>
> How long it takes to reach your goal
> depends less on your speed than on your direction.
>
Daarom is het belangrijk om de mensen de juist richting in te sturen.
Groeten
Geert Stappers
--
Silence is hard to parse
Meer informatie over de Linux
maillijst