<div dir="ltr"><div dir="ltr">


        
        <span></span>
        
        


<p class="gmail-western" style="margin-bottom:0cm;font-family:"Times New Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">


        
        <span></span>Beste Geert, Daniel,
Gijs en anderen,</p>
<p style="margin-bottom:0cm;font-family:"Times New Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">

</p>
<p style="margin-bottom:0cm;font-family:"Times New Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">Het is gelukt!</p>
<p style="margin-bottom:0cm;font-family:"Times New Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">

</p>
<p style="margin-bottom:0cm;font-family:"Times New Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">Zoals Gijs voorstelde,
heb ik mijn Word-bestanden omgezet naar txt-bestanden via:</p>
<p style="margin-bottom:0cm;font-family:"Times New Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">

</p>
<p style="font-family:"Times New Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)"><font color="#ed1c24">find . \( -name \*.doc -o
-name \*.docx \) -type f -exec soffice --headless --convert-to
txt:Text {} \; </font>
</p>
<p style="font-family:"Times New Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Nu kan ik ze makkelijk doorzoeken met grep:</p>
<p style="margin-bottom:0cm;font-family:"Times New Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)"> <font color="#ed1c24">grep
-r -i -l “fiets” /home/jan-paul/Bureaublad/Zoeken</font></p>

<p style="font-family:"Times New Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Ik krijg dan een keurig lijstje van de bestanden
waarin dit woord voorkomt plus het pad. Precies wat ik wou.</p>
<p style="font-family:"Times New Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Hartelijk dank voor jullie hulp!</p>
<p style="font-family:"Times New Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Met vriendelijke groeten,  Jan Paul</p>
</div><div dir="ltr"><br></div><div dir="ltr">

=== <br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Op za 20 jun. 2020 om 12:00 schreef <<a href="mailto:linux-request@lists.nllgg.nl" target="_blank">linux-request@lists.nllgg.nl</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Stuur Linux maillijst aanmeldingen naar<br>
        <a href="mailto:linux@lists.nllgg.nl" target="_blank">linux@lists.nllgg.nl</a><br>
<br>
Om u aan of af te melden via het web, bezoek<br>
        <a href="https://lists.nllgg.nl/listinfo/linux" rel="noreferrer" target="_blank">https://lists.nllgg.nl/listinfo/linux</a><br>
of stuur een e-mail bericht met als onderwerp of tekst het woord<br>
'help' naar<br>
        <a href="mailto:linux-request@lists.nllgg.nl" target="_blank">linux-request@lists.nllgg.nl</a><br>
<br>
U kunt de persoon die de lijst beheert bereiken op<br>
        <a href="mailto:linux-owner@lists.nllgg.nl" target="_blank">linux-owner@lists.nllgg.nl</a><br>
<br>
Als u berichten beantwoordt, gelieve meer specifieke informatie in de<br>
onderwerp-regel op te nemen dan alleen maar "Re: Inhoud van Linux<br>
verzamelmail..."<br>
<br>
<br>
Onderwerpen van vandaag:<br>
<br>
   1. Re: Linux Verzamelmail, Volume 46, Nummer 10 (G?s Hillenius)<br>
   2. Re: Grep krijgt geen grip op binaire bestanden<br>
      (Daniel C. von Asmuth)<br>
   3. Re: Linux Verzamelmail, Volume 46, Nummer 10 (Jan Paul Smit)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Fri, 19 Jun 2020 12:21:31 +0200<br>
From: G?s Hillenius <<a href="mailto:gijs@hillenius.net" target="_blank">gijs@hillenius.net</a>><br>
To: Jan Paul Smit <<a href="mailto:jpsmit1951@gmail.com" target="_blank">jpsmit1951@gmail.com</a>><br>
Cc: <a href="mailto:linux@lists.nllgg.nl" target="_blank">linux@lists.nllgg.nl</a><br>
Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer 10<br>
Message-ID: <<a href="mailto:87ftar9x04.fsf@hillenius.net" target="_blank">87ftar9x04.fsf@hillenius.net</a>><br>
Content-Type: text/plain; charset=utf-8<br>
<br>
On 19 June 2020 10:32 Jan Paul Smit, wrote:<br>
<br>
<br>
[...]<br>
<br>
<br>
> Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan mijn ?<br>
> voornamelijk Word 97 ? documenten in mijn map Documenten op een bepaald<br>
> woord te doorzoeken, als ik er niet uit kom met zoeken op een woord(deel)<br>
> in de bestandsnaam.<br>
<br>
Jan Paul,<br>
<br>
Je gebruikt Ubuntu, toch? Werkt dit?<br>
<br>
<a href="https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en" rel="noreferrer" target="_blank">https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en</a><br>
<br>
<br>
Het is me uit de eerder posts hier niet 1 2 3 duidelijk of je deze<br>
documenten wel of niet kan openen met bijvoorbeeld LibreOffice? Da's<br>
helemaal niet hetzelfde als zoeken in alle documenten. Maar het is toch<br>
handig om te weten.<br>
<br>
Als grep en strings je nu niet helpen, overweeg dan om die documenten te<br>
exporteren naar text. Dat kan op vele manieren.<br>
<br>
Ik raad je pandoc aan. Dat moet je misschien nog even installeren, maar<br>
daar krijg je geen spijt van.<br>
<br>
Wat ik hieronder doe heb ik op een zootje bestanden getest, en het werkt<br>
hier. Maar toch - doe onderstaand *niet* in "echte" folder, maar maak<br>
een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet daar alle<br>
documenten die je wilt converteren.<br>
<br>
open een shell<br>
ga naar die folder - in mijn geval is dat dan:<br>
<br>
cd /tmp/hutsefluts<br>
<br>
en tiep dan<br>
<br>
find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;<br>
<br>
Dit betekent: vind alle files (geen directories) die .docx als<br>
achtervoegsel hebben, geef ze een voor een aan pandoc, en pandoc,<br>
converteer ze naar txt.<br>
<br>
Als je nog oudere documenten hebt in doc, dan brandt Pandoc zich daar<br>
niet aan. Dan moet het via LibreOffice, bijvoorbeeld<br>
<br>
find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice --headless --convert-to txt:Text  {} \;<br>
<br>
Dit betekent: vind alle files doc en of docx en voer ze aan libreoffice<br>
(synonyiem in de commandline soffice) om er text van te maken.<br>
<br>
Dan heb je in die folder .txt exports, en die zijn veel makkelijker te<br>
doorzoeken. Als het naar tevredenheid werkt, kan je tzt al je doc en docx<br>
bestanden opruimen. En da's het beste wat je kan doen met gesloten<br>
bestandsformaten.<br>
<br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Fri, 19 Jun 2020 12:57:04 +0200<br>
From: "Daniel C. von Asmuth" <<a href="mailto:asmuth@bakunin.xs4all.nl" target="_blank">asmuth@bakunin.xs4all.nl</a>><br>
To: <a href="mailto:linux@lists.nllgg.nl" target="_blank">linux@lists.nllgg.nl</a><br>
Subject: Re: [linux] Grep krijgt geen grip op binaire bestanden<br>
Message-ID: <<a href="mailto:20200619105704.GA28306@bakunin.xs4all.nl" target="_blank">20200619105704.GA28306@bakunin.xs4all.nl</a>><br>
Content-Type: text/plain; charset=big5<br>
<br>
Aldus schreef Jan Paul Smit op Fri, Jun 19, 2020 at 10:32:21AM +0200:<br>
> Beste Linux-mensen,<br>
> <br>
> In een vorige mail schreef Daniel von Asmuth:<br>
> <br>
>      <a href="https://wiki.debian.org/FullT" rel="noreferrer" target="_blank">https://wiki.debian.org/FullT</a> <<a href="https://wiki.debian.org/FullTextSearch" rel="noreferrer" target="_blank">https://wiki.debian.org/FullTextSearch</a>><br>
> > >         <a href="https://www.linuxlinks.com/de" rel="noreferrer" target="_blank">https://www.linuxlinks.com/de</a><br>
> <<a href="https://www.linuxlinks.com/desktopsearchengines/" rel="noreferrer" target="_blank">https://www.linuxlinks.com/desktopsearchengines/</a>><br>
> > >         <a href="https://dtsearch.com/" rel="noreferrer" target="_blank">https://dtsearch.com/</a>   (geen gratis software)<br>
> > ><br>
> > > <a href="https://www.linuxuprising.com/" rel="noreferrer" target="_blank">https://www.linuxuprising.com/</a><br>
> <<a href="https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html" rel="noreferrer" target="_blank">https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html</a>><br>
> > >         <a href="https://linuxhint.com/best-se" rel="noreferrer" target="_blank">https://linuxhint.com/best-se</a><br>
> <br>
> Ik heb de suggesties bekeken, maar dit is nog te moeilijk voor mij en ik<br>
> heb op dit moment niet de tijd om me er heel erg in te verdiepen.<br>
<br>
Het probleem is ook iets ingewikkelder dan het op het eerste gezicht lijkt. <br>
Zoals gezegd gaat grep dit niet zo maar kunnen oplossen. <br>
<br>
> Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan mijn ?<br>
> voornamelijk Word 97 ? documenten in mijn map Documenten op een bepaald<br>
> woord te doorzoeken, als ik er niet uit kom met zoeken op een woord(deel)<br>
> in de bestandsnaam.<br>
<br>
Word 97 documenten kunt u in platte tekst omzetten met catdoc en recentere<br>
word documenten met docx2txt. Daarna kunt u er met grep in zoeken. We weten<br>
niet wat voor bestandsformaten u nog meer heeft. <br>
<br>
Eigenlijk zou Pandoc het ook moeten kunnen, maar dat is een vrij complex<br>
programma. <br>
<br>
> In mijn onschuld dacht ik dat het om een eenvoudig stukje code zou gaan,<br>
> maar uit jullie reacties begrijp ik dat het ingewikkelder ligt.<br>
> <br>
> Ook de suggestie van Daniel von Asmuth<br>
> <br>
> ?Probeer eens:<br>
>         grep -r -i -H -s fiets /home/jan-paul/Documenten?<br>
> <br>
> heb ik uitgeprobeerd, maar werkte bij mij niet.<br>
> <br>
> Ik gebruik de code ? | cut -d: -f1? om een overschot aan tekst in rtf-,<br>
> txt- en html-bestanden kwijt te raken, maar wel het pad te behouden.<br>
> <br>
> zgrep heb ik ook uitgeprobeerd in plaats van grep; geen resultaat.<br>
> <br>
> Toch is het merkwaardige dat grep sommige Word-documenten met een een<br>
> bepaald zoekwoord wel op de lijst zet en andere Word-documenten met<br>
> hetzelfde zoekwoord niet.<br>
<br>
U zou natuurlijk kunnen proberen om die documenten met 'od' te dumpen om<br>
een idee te krijgen waarom grep het wel of niet vindt. <br>
<br>
> Ik heb van alles uitgeprobeerd:<br>
<br>
Met vriendelijke groet,<br>
<br>
<br>
<br>
Daniel von Asmuth <br>
-- <br>
<br>
                How long it takes to reach your goal<br>
                depends less on your speed than on your direction.<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Sat, 20 Jun 2020 09:30:02 +0200<br>
From: Jan Paul Smit <<a href="mailto:jpsmit1951@gmail.com" target="_blank">jpsmit1951@gmail.com</a>><br>
To: G?s Hillenius <<a href="mailto:gijs@hillenius.net" target="_blank">gijs@hillenius.net</a>><br>
Cc: <a href="mailto:linux@lists.nllgg.nl" target="_blank">linux@lists.nllgg.nl</a><br>
Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer 10<br>
Message-ID:<br>
        <<a href="mailto:CALUn2Lbwjay1QVoiGj1qDvX%2BZeLAmW10ko63T4wn5%2B591E02NA@mail.gmail.com" target="_blank">CALUn2Lbwjay1QVoiGj1qDvX+ZeLAmW10ko63T4wn5+591E02NA@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="utf-8"<br>
<br>
Beste Geert, Daniel, Gijs en anderen,<br>
<br>
Opnieuw bedankt voor jullie commentaar en suggesties! Het wordt me langzaam<br>
maar zeker duidelijk waar de schoen wringt.<br>
<br>
Ik heb inderdaad Ubuntu en ik kan alle Word-97 documenten probleemloos<br>
openen in LibreOffice<br>
<br>
Ik ga kijken of ik mijn Word-97 documenten om kan zetten in txt-bestanden<br>
via pandoc. In principe zou dat een goede oplossing zijn, want<br>
txt-bestanden kan ik prima doorzoeken met grep.<br>
<br>
Groeten, Jan Paul<br>
<br>
===<br>
<br>
Op vr 19 jun. 2020 om 12:21 schreef G?s Hillenius <<a href="mailto:gijs@hillenius.net" target="_blank">gijs@hillenius.net</a>>:<br>
<br>
> On 19 June 2020 10:32 Jan Paul Smit, wrote:<br>
><br>
><br>
> [...]<br>
><br>
><br>
> > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan mijn ?<br>
> > voornamelijk Word 97 ? documenten in mijn map Documenten op een bepaald<br>
> > woord te doorzoeken, als ik er niet uit kom met zoeken op een woord(deel)<br>
> > in de bestandsnaam.<br>
><br>
> Jan Paul,<br>
><br>
> Je gebruikt Ubuntu, toch? Werkt dit?<br>
><br>
> <a href="https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en" rel="noreferrer" target="_blank">https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en</a><br>
><br>
><br>
> Het is me uit de eerder posts hier niet 1 2 3 duidelijk of je deze<br>
> documenten wel of niet kan openen met bijvoorbeeld LibreOffice? Da's<br>
> helemaal niet hetzelfde als zoeken in alle documenten. Maar het is toch<br>
> handig om te weten.<br>
><br>
> Als grep en strings je nu niet helpen, overweeg dan om die documenten te<br>
> exporteren naar text. Dat kan op vele manieren.<br>
><br>
> Ik raad je pandoc aan. Dat moet je misschien nog even installeren, maar<br>
> daar krijg je geen spijt van.<br>
><br>
> Wat ik hieronder doe heb ik op een zootje bestanden getest, en het werkt<br>
> hier. Maar toch - doe onderstaand *niet* in "echte" folder, maar maak<br>
> een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet daar alle<br>
> documenten die je wilt converteren.<br>
><br>
> open een shell<br>
> ga naar die folder - in mijn geval is dat dan:<br>
><br>
> cd /tmp/hutsefluts<br>
><br>
> en tiep dan<br>
><br>
> find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;<br>
><br>
> Dit betekent: vind alle files (geen directories) die .docx als<br>
> achtervoegsel hebben, geef ze een voor een aan pandoc, en pandoc,<br>
> converteer ze naar txt.<br>
><br>
> Als je nog oudere documenten hebt in doc, dan brandt Pandoc zich daar<br>
> niet aan. Dan moet het via LibreOffice, bijvoorbeeld<br>
><br>
> find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice<br>
> --headless --convert-to txt:Text  {} \;<br>
><br>
> Dit betekent: vind alle files doc en of docx en voer ze aan libreoffice<br>
> (synonyiem in de commandline soffice) om er text van te maken.<br>
><br>
> Dan heb je in die folder .txt exports, en die zijn veel makkelijker te<br>
> doorzoeken. Als het naar tevredenheid werkt, kan je tzt al je doc en docx<br>
> bestanden opruimen. En da's het beste wat je kan doen met gesloten<br>
> bestandsformaten.<br>
><br>
------------- volgend deel ------------<br>
Een HTML-bijlage is gescrubt...<br>
URL: <<a href="https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm" rel="noreferrer" target="_blank">https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm</a>><br>
<br>
------------------------------<br>
<br>
Subject: Verzamelmail-voettekst<br>
<br>
_______________________________________________<br>
Linux mailing list<br>
<a href="mailto:Linux@lists.nllgg.nl" target="_blank">Linux@lists.nllgg.nl</a><br>
<a href="https://lists.nllgg.nl/listinfo/linux" rel="noreferrer" target="_blank">https://lists.nllgg.nl/listinfo/linux</a><br>
<br>
<br>
------------------------------<br>
<br>
Eind van Linux Verzamelmail, Volume 46, Nummer 12<br>
*************************************************<br>
</blockquote></div></div>