[linux] Linux Verzamelmail, Volume 46, Nummer 12

Jan Paul Smit jpsmit1951 op gmail.com
Ma Jun 22 09:50:41 CEST 2020


Beste Geert, Daniel, Gijs en anderen,

Het is gelukt!

Zoals Gijs voorstelde, heb ik mijn Word-bestanden omgezet naar
txt-bestanden via:

find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice --headless
--convert-to txt:Text {} \;

Nu kan ik ze makkelijk doorzoeken met grep:

grep -r -i -l “fiets” /home/jan-paul/Bureaublad/Zoeken

Ik krijg dan een keurig lijstje van de bestanden waarin dit woord voorkomt
plus het pad. Precies wat ik wou.

Hartelijk dank voor jullie hulp!

Met vriendelijke groeten, Jan Paul

===

Op za 20 jun. 2020 om 12:00 schreef <linux-request op lists.nllgg.nl>:

> Stuur Linux maillijst aanmeldingen naar
>         linux op lists.nllgg.nl
>
> Om u aan of af te melden via het web, bezoek
>         https://lists.nllgg.nl/listinfo/linux
> of stuur een e-mail bericht met als onderwerp of tekst het woord
> 'help' naar
>         linux-request op lists.nllgg.nl
>
> U kunt de persoon die de lijst beheert bereiken op
>         linux-owner op lists.nllgg.nl
>
> Als u berichten beantwoordt, gelieve meer specifieke informatie in de
> onderwerp-regel op te nemen dan alleen maar "Re: Inhoud van Linux
> verzamelmail..."
>
>
> Onderwerpen van vandaag:
>
>    1. Re: Linux Verzamelmail, Volume 46, Nummer 10 (G?s Hillenius)
>    2. Re: Grep krijgt geen grip op binaire bestanden
>       (Daniel C. von Asmuth)
>    3. Re: Linux Verzamelmail, Volume 46, Nummer 10 (Jan Paul Smit)
>
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Fri, 19 Jun 2020 12:21:31 +0200
> From: G?s Hillenius <gijs op hillenius.net>
> To: Jan Paul Smit <jpsmit1951 op gmail.com>
> Cc: linux op lists.nllgg.nl
> Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer 10
> Message-ID: <87ftar9x04.fsf op hillenius.net>
> Content-Type: text/plain; charset=utf-8
>
> On 19 June 2020 10:32 Jan Paul Smit, wrote:
>
>
> [...]
>
>
> > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan mijn ?
> > voornamelijk Word 97 ? documenten in mijn map Documenten op een bepaald
> > woord te doorzoeken, als ik er niet uit kom met zoeken op een woord(deel)
> > in de bestandsnaam.
>
> Jan Paul,
>
> Je gebruikt Ubuntu, toch? Werkt dit?
>
> https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en
>
>
> Het is me uit de eerder posts hier niet 1 2 3 duidelijk of je deze
> documenten wel of niet kan openen met bijvoorbeeld LibreOffice? Da's
> helemaal niet hetzelfde als zoeken in alle documenten. Maar het is toch
> handig om te weten.
>
> Als grep en strings je nu niet helpen, overweeg dan om die documenten te
> exporteren naar text. Dat kan op vele manieren.
>
> Ik raad je pandoc aan. Dat moet je misschien nog even installeren, maar
> daar krijg je geen spijt van.
>
> Wat ik hieronder doe heb ik op een zootje bestanden getest, en het werkt
> hier. Maar toch - doe onderstaand *niet* in "echte" folder, maar maak
> een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet daar alle
> documenten die je wilt converteren.
>
> open een shell
> ga naar die folder - in mijn geval is dat dan:
>
> cd /tmp/hutsefluts
>
> en tiep dan
>
> find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;
>
> Dit betekent: vind alle files (geen directories) die .docx als
> achtervoegsel hebben, geef ze een voor een aan pandoc, en pandoc,
> converteer ze naar txt.
>
> Als je nog oudere documenten hebt in doc, dan brandt Pandoc zich daar
> niet aan. Dan moet het via LibreOffice, bijvoorbeeld
>
> find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice
> --headless --convert-to txt:Text  {} \;
>
> Dit betekent: vind alle files doc en of docx en voer ze aan libreoffice
> (synonyiem in de commandline soffice) om er text van te maken.
>
> Dan heb je in die folder .txt exports, en die zijn veel makkelijker te
> doorzoeken. Als het naar tevredenheid werkt, kan je tzt al je doc en docx
> bestanden opruimen. En da's het beste wat je kan doen met gesloten
> bestandsformaten.
>
>
> ------------------------------
>
> Message: 2
> Date: Fri, 19 Jun 2020 12:57:04 +0200
> From: "Daniel C. von Asmuth" <asmuth op bakunin.xs4all.nl>
> To: linux op lists.nllgg.nl
> Subject: Re: [linux] Grep krijgt geen grip op binaire bestanden
> Message-ID: <20200619105704.GA28306 op bakunin.xs4all.nl>
> Content-Type: text/plain; charset=big5
>
> Aldus schreef Jan Paul Smit op Fri, Jun 19, 2020 at 10:32:21AM +0200:
> > Beste Linux-mensen,
> >
> > In een vorige mail schreef Daniel von Asmuth:
> >
> >      https://wiki.debian.org/FullT <
> https://wiki.debian.org/FullTextSearch>
> > > >         https://www.linuxlinks.com/de
> > <https://www.linuxlinks.com/desktopsearchengines/>
> > > >         https://dtsearch.com/   (geen gratis software)
> > > >
> > > > https://www.linuxuprising.com/
> > <
> https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html
> >
> > > >         https://linuxhint.com/best-se
> >
> > Ik heb de suggesties bekeken, maar dit is nog te moeilijk voor mij en ik
> > heb op dit moment niet de tijd om me er heel erg in te verdiepen.
>
> Het probleem is ook iets ingewikkelder dan het op het eerste gezicht
> lijkt.
> Zoals gezegd gaat grep dit niet zo maar kunnen oplossen.
>
> > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan mijn ?
> > voornamelijk Word 97 ? documenten in mijn map Documenten op een bepaald
> > woord te doorzoeken, als ik er niet uit kom met zoeken op een woord(deel)
> > in de bestandsnaam.
>
> Word 97 documenten kunt u in platte tekst omzetten met catdoc en recentere
> word documenten met docx2txt. Daarna kunt u er met grep in zoeken. We weten
> niet wat voor bestandsformaten u nog meer heeft.
>
> Eigenlijk zou Pandoc het ook moeten kunnen, maar dat is een vrij complex
> programma.
>
> > In mijn onschuld dacht ik dat het om een eenvoudig stukje code zou gaan,
> > maar uit jullie reacties begrijp ik dat het ingewikkelder ligt.
> >
> > Ook de suggestie van Daniel von Asmuth
> >
> > ?Probeer eens:
> >         grep -r -i -H -s fiets /home/jan-paul/Documenten?
> >
> > heb ik uitgeprobeerd, maar werkte bij mij niet.
> >
> > Ik gebruik de code ? | cut -d: -f1? om een overschot aan tekst in rtf-,
> > txt- en html-bestanden kwijt te raken, maar wel het pad te behouden.
> >
> > zgrep heb ik ook uitgeprobeerd in plaats van grep; geen resultaat.
> >
> > Toch is het merkwaardige dat grep sommige Word-documenten met een een
> > bepaald zoekwoord wel op de lijst zet en andere Word-documenten met
> > hetzelfde zoekwoord niet.
>
> U zou natuurlijk kunnen proberen om die documenten met 'od' te dumpen om
> een idee te krijgen waarom grep het wel of niet vindt.
>
> > Ik heb van alles uitgeprobeerd:
>
> Met vriendelijke groet,
>
>
>
> Daniel von Asmuth
> --
>
>                 How long it takes to reach your goal
>                 depends less on your speed than on your direction.
>
>
> ------------------------------
>
> Message: 3
> Date: Sat, 20 Jun 2020 09:30:02 +0200
> From: Jan Paul Smit <jpsmit1951 op gmail.com>
> To: G?s Hillenius <gijs op hillenius.net>
> Cc: linux op lists.nllgg.nl
> Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer 10
> Message-ID:
>         <
> CALUn2Lbwjay1QVoiGj1qDvX+ZeLAmW10ko63T4wn5+591E02NA op mail.gmail.com>
> Content-Type: text/plain; charset="utf-8"
>
> Beste Geert, Daniel, Gijs en anderen,
>
> Opnieuw bedankt voor jullie commentaar en suggesties! Het wordt me langzaam
> maar zeker duidelijk waar de schoen wringt.
>
> Ik heb inderdaad Ubuntu en ik kan alle Word-97 documenten probleemloos
> openen in LibreOffice
>
> Ik ga kijken of ik mijn Word-97 documenten om kan zetten in txt-bestanden
> via pandoc. In principe zou dat een goede oplossing zijn, want
> txt-bestanden kan ik prima doorzoeken met grep.
>
> Groeten, Jan Paul
>
> ===
>
> Op vr 19 jun. 2020 om 12:21 schreef G?s Hillenius <gijs op hillenius.net>:
>
> > On 19 June 2020 10:32 Jan Paul Smit, wrote:
> >
> >
> > [...]
> >
> >
> > > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan mijn ?
> > > voornamelijk Word 97 ? documenten in mijn map Documenten op een bepaald
> > > woord te doorzoeken, als ik er niet uit kom met zoeken op een
> woord(deel)
> > > in de bestandsnaam.
> >
> > Jan Paul,
> >
> > Je gebruikt Ubuntu, toch? Werkt dit?
> >
> > https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en
> >
> >
> > Het is me uit de eerder posts hier niet 1 2 3 duidelijk of je deze
> > documenten wel of niet kan openen met bijvoorbeeld LibreOffice? Da's
> > helemaal niet hetzelfde als zoeken in alle documenten. Maar het is toch
> > handig om te weten.
> >
> > Als grep en strings je nu niet helpen, overweeg dan om die documenten te
> > exporteren naar text. Dat kan op vele manieren.
> >
> > Ik raad je pandoc aan. Dat moet je misschien nog even installeren, maar
> > daar krijg je geen spijt van.
> >
> > Wat ik hieronder doe heb ik op een zootje bestanden getest, en het werkt
> > hier. Maar toch - doe onderstaand *niet* in "echte" folder, maar maak
> > een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet daar alle
> > documenten die je wilt converteren.
> >
> > open een shell
> > ga naar die folder - in mijn geval is dat dan:
> >
> > cd /tmp/hutsefluts
> >
> > en tiep dan
> >
> > find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;
> >
> > Dit betekent: vind alle files (geen directories) die .docx als
> > achtervoegsel hebben, geef ze een voor een aan pandoc, en pandoc,
> > converteer ze naar txt.
> >
> > Als je nog oudere documenten hebt in doc, dan brandt Pandoc zich daar
> > niet aan. Dan moet het via LibreOffice, bijvoorbeeld
> >
> > find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice
> > --headless --convert-to txt:Text  {} \;
> >
> > Dit betekent: vind alle files doc en of docx en voer ze aan libreoffice
> > (synonyiem in de commandline soffice) om er text van te maken.
> >
> > Dan heb je in die folder .txt exports, en die zijn veel makkelijker te
> > doorzoeken. Als het naar tevredenheid werkt, kan je tzt al je doc en docx
> > bestanden opruimen. En da's het beste wat je kan doen met gesloten
> > bestandsformaten.
> >
> ------------- volgend deel ------------
> Een HTML-bijlage is gescrubt...
> URL: <
> https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm
> >
>
> ------------------------------
>
> Subject: Verzamelmail-voettekst
>
> _______________________________________________
> Linux mailing list
> Linux op lists.nllgg.nl
> https://lists.nllgg.nl/listinfo/linux
>
>
> ------------------------------
>
> Eind van Linux Verzamelmail, Volume 46, Nummer 12
> *************************************************
>
------------- volgend deel ------------
Een HTML-bijlage is gescrubt...
URL: <https://lists.nllgg.nl/pipermail/linux/attachments/20200622/dc8a6dad/attachment-0001.htm>


Meer informatie over de Linux maillijst