<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <br>
    <br>
    Ik weet niet hoe comfortabel je bent in bash, maar nu heb je twee
    sets met bestanden te beheren, namelijk he Word bestanden en je text
    bestanden. Dat schreeuwt om een scriptje dat on the fly de
    Wordbestanden converteert en er grep op los laat. soffice lijkt me
    dan een zwaargewicht; zijn er ook lichtere programmas die je dan als
    een filter kunt inbouwen?<br>
    <br>
    Paai<br>
    <br>
    <br>
    <br>
    <br>
    <div class="moz-cite-prefix">On 22-06-2020 09:50, Jan Paul Smit
      wrote:<br>
    </div>
    <blockquote type="cite"
cite="mid:CALUn2LYG8yk2qo7ULmfCpMx8rmuC72c2oJ7WO9FsEVOTa_pVYw@mail.gmail.com">
      <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <div dir="ltr">
        <div dir="ltr"> <span></span>
          <p class="gmail-western"
            style="margin-bottom:0cm;font-family:"Times New
            Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
            <span></span>Beste Geert, Daniel,
            Gijs en anderen,</p>
          <p style="margin-bottom:0cm;font-family:"Times New
            Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
          </p>
          <p style="margin-bottom:0cm;font-family:"Times New
            Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">Het
            is gelukt!</p>
          <p style="margin-bottom:0cm;font-family:"Times New
            Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
          </p>
          <p style="margin-bottom:0cm;font-family:"Times New
            Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">Zoals
            Gijs voorstelde,
            heb ik mijn Word-bestanden omgezet naar txt-bestanden via:</p>
          <p style="margin-bottom:0cm;font-family:"Times New
            Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
          </p>
          <p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)"><font
              color="#ed1c24">find . \( -name \*.doc -o
              -name \*.docx \) -type f -exec soffice --headless
              --convert-to
              txt:Text {} \; </font>
          </p>
          <p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Nu
            kan ik ze makkelijk doorzoeken met grep:</p>
          <p style="margin-bottom:0cm;font-family:"Times New
            Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
            <font color="#ed1c24">grep
              -r -i -l “fiets” /home/jan-paul/Bureaublad/Zoeken</font></p>
          <p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Ik
            krijg dan een keurig lijstje van de bestanden
            waarin dit woord voorkomt plus het pad. Precies wat ik wou.</p>
          <p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Hartelijk
            dank voor jullie hulp!</p>
          <p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Met
            vriendelijke groeten, Jan Paul</p>
        </div>
        <div dir="ltr"><br>
        </div>
        <div dir="ltr">
          === <br>
        </div>
        <br>
        <div class="gmail_quote">
          <div dir="ltr" class="gmail_attr">Op za 20 jun. 2020 om 12:00
            schreef <<a href="mailto:linux-request@lists.nllgg.nl"
              target="_blank" moz-do-not-send="true">linux-request@lists.nllgg.nl</a>>:<br>
          </div>
          <blockquote class="gmail_quote" style="margin:0px 0px 0px
            0.8ex;border-left:1px solid
            rgb(204,204,204);padding-left:1ex">Stuur Linux maillijst
            aanmeldingen naar<br>
                    <a href="mailto:linux@lists.nllgg.nl"
              target="_blank" moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
            <br>
            Om u aan of af te melden via het web, bezoek<br>
                    <a href="https://lists.nllgg.nl/listinfo/linux"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://lists.nllgg.nl/listinfo/linux</a><br>
            of stuur een e-mail bericht met als onderwerp of tekst het
            woord<br>
            'help' naar<br>
                    <a href="mailto:linux-request@lists.nllgg.nl"
              target="_blank" moz-do-not-send="true">linux-request@lists.nllgg.nl</a><br>
            <br>
            U kunt de persoon die de lijst beheert bereiken op<br>
                    <a href="mailto:linux-owner@lists.nllgg.nl"
              target="_blank" moz-do-not-send="true">linux-owner@lists.nllgg.nl</a><br>
            <br>
            Als u berichten beantwoordt, gelieve meer specifieke
            informatie in de<br>
            onderwerp-regel op te nemen dan alleen maar "Re: Inhoud van
            Linux<br>
            verzamelmail..."<br>
            <br>
            <br>
            Onderwerpen van vandaag:<br>
            <br>
               1. Re: Linux Verzamelmail, Volume 46, Nummer 10 (G?s
            Hillenius)<br>
               2. Re: Grep krijgt geen grip op binaire bestanden<br>
                  (Daniel C. von Asmuth)<br>
               3. Re: Linux Verzamelmail, Volume 46, Nummer 10 (Jan Paul
            Smit)<br>
            <br>
            <br>
----------------------------------------------------------------------<br>
            <br>
            Message: 1<br>
            Date: Fri, 19 Jun 2020 12:21:31 +0200<br>
            From: G?s Hillenius <<a href="mailto:gijs@hillenius.net"
              target="_blank" moz-do-not-send="true">gijs@hillenius.net</a>><br>
            To: Jan Paul Smit <<a href="mailto:jpsmit1951@gmail.com"
              target="_blank" moz-do-not-send="true">jpsmit1951@gmail.com</a>><br>
            Cc: <a href="mailto:linux@lists.nllgg.nl" target="_blank"
              moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
            Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer
            10<br>
            Message-ID: <<a
              href="mailto:87ftar9x04.fsf@hillenius.net" target="_blank"
              moz-do-not-send="true">87ftar9x04.fsf@hillenius.net</a>><br>
            Content-Type: text/plain; charset=utf-8<br>
            <br>
            On 19 June 2020 10:32 Jan Paul Smit, wrote:<br>
            <br>
            <br>
            [...]<br>
            <br>
            <br>
            > Bovendien gaat het mij eigenlijk heel eenvoudig om zo
            nu en dan mijn ?<br>
            > voornamelijk Word 97 ? documenten in mijn map
            Documenten op een bepaald<br>
            > woord te doorzoeken, als ik er niet uit kom met zoeken
            op een woord(deel)<br>
            > in de bestandsnaam.<br>
            <br>
            Jan Paul,<br>
            <br>
            Je gebruikt Ubuntu, toch? Werkt dit?<br>
            <br>
            <a
              href="https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en</a><br>
            <br>
            <br>
            Het is me uit de eerder posts hier niet 1 2 3 duidelijk of
            je deze<br>
            documenten wel of niet kan openen met bijvoorbeeld
            LibreOffice? Da's<br>
            helemaal niet hetzelfde als zoeken in alle documenten. Maar
            het is toch<br>
            handig om te weten.<br>
            <br>
            Als grep en strings je nu niet helpen, overweeg dan om die
            documenten te<br>
            exporteren naar text. Dat kan op vele manieren.<br>
            <br>
            Ik raad je pandoc aan. Dat moet je misschien nog even
            installeren, maar<br>
            daar krijg je geen spijt van.<br>
            <br>
            Wat ik hieronder doe heb ik op een zootje bestanden getest,
            en het werkt<br>
            hier. Maar toch - doe onderstaand *niet* in "echte" folder,
            maar maak<br>
            een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet
            daar alle<br>
            documenten die je wilt converteren.<br>
            <br>
            open een shell<br>
            ga naar die folder - in mijn geval is dat dan:<br>
            <br>
            cd /tmp/hutsefluts<br>
            <br>
            en tiep dan<br>
            <br>
            find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;<br>
            <br>
            Dit betekent: vind alle files (geen directories) die .docx
            als<br>
            achtervoegsel hebben, geef ze een voor een aan pandoc, en
            pandoc,<br>
            converteer ze naar txt.<br>
            <br>
            Als je nog oudere documenten hebt in doc, dan brandt Pandoc
            zich daar<br>
            niet aan. Dan moet het via LibreOffice, bijvoorbeeld<br>
            <br>
            find . \( -name \*.doc -o -name \*.docx \) -type f -exec
            soffice --headless --convert-to txt:Text  {} \;<br>
            <br>
            Dit betekent: vind alle files doc en of docx en voer ze aan
            libreoffice<br>
            (synonyiem in de commandline soffice) om er text van te
            maken.<br>
            <br>
            Dan heb je in die folder .txt exports, en die zijn veel
            makkelijker te<br>
            doorzoeken. Als het naar tevredenheid werkt, kan je tzt al
            je doc en docx<br>
            bestanden opruimen. En da's het beste wat je kan doen met
            gesloten<br>
            bestandsformaten.<br>
            <br>
            <br>
            ------------------------------<br>
            <br>
            Message: 2<br>
            Date: Fri, 19 Jun 2020 12:57:04 +0200<br>
            From: "Daniel C. von Asmuth" <<a
              href="mailto:asmuth@bakunin.xs4all.nl" target="_blank"
              moz-do-not-send="true">asmuth@bakunin.xs4all.nl</a>><br>
            To: <a href="mailto:linux@lists.nllgg.nl" target="_blank"
              moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
            Subject: Re: [linux] Grep krijgt geen grip op binaire
            bestanden<br>
            Message-ID: <<a
              href="mailto:20200619105704.GA28306@bakunin.xs4all.nl"
              target="_blank" moz-do-not-send="true">20200619105704.GA28306@bakunin.xs4all.nl</a>><br>
            Content-Type: text/plain; charset=big5<br>
            <br>
            Aldus schreef Jan Paul Smit op Fri, Jun 19, 2020 at
            10:32:21AM +0200:<br>
            > Beste Linux-mensen,<br>
            > <br>
            > In een vorige mail schreef Daniel von Asmuth:<br>
            > <br>
            >      <a href="https://wiki.debian.org/FullT"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://wiki.debian.org/FullT</a>
            <<a href="https://wiki.debian.org/FullTextSearch"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://wiki.debian.org/FullTextSearch</a>><br>
            > > >         <a
              href="https://www.linuxlinks.com/de" rel="noreferrer"
              target="_blank" moz-do-not-send="true">https://www.linuxlinks.com/de</a><br>
            > <<a
              href="https://www.linuxlinks.com/desktopsearchengines/"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://www.linuxlinks.com/desktopsearchengines/</a>><br>
            > > >         <a href="https://dtsearch.com/"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://dtsearch.com/</a> 
             (geen gratis software)<br>
            > > ><br>
            > > > <a href="https://www.linuxuprising.com/"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://www.linuxuprising.com/</a><br>
            > <<a
href="https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html</a>><br>
            > > >         <a
              href="https://linuxhint.com/best-se" rel="noreferrer"
              target="_blank" moz-do-not-send="true">https://linuxhint.com/best-se</a><br>
            > <br>
            > Ik heb de suggesties bekeken, maar dit is nog te
            moeilijk voor mij en ik<br>
            > heb op dit moment niet de tijd om me er heel erg in te
            verdiepen.<br>
            <br>
            Het probleem is ook iets ingewikkelder dan het op het eerste
            gezicht lijkt. <br>
            Zoals gezegd gaat grep dit niet zo maar kunnen oplossen. <br>
            <br>
            > Bovendien gaat het mij eigenlijk heel eenvoudig om zo
            nu en dan mijn ?<br>
            > voornamelijk Word 97 ? documenten in mijn map
            Documenten op een bepaald<br>
            > woord te doorzoeken, als ik er niet uit kom met zoeken
            op een woord(deel)<br>
            > in de bestandsnaam.<br>
            <br>
            Word 97 documenten kunt u in platte tekst omzetten met
            catdoc en recentere<br>
            word documenten met docx2txt. Daarna kunt u er met grep in
            zoeken. We weten<br>
            niet wat voor bestandsformaten u nog meer heeft. <br>
            <br>
            Eigenlijk zou Pandoc het ook moeten kunnen, maar dat is een
            vrij complex<br>
            programma. <br>
            <br>
            > In mijn onschuld dacht ik dat het om een eenvoudig
            stukje code zou gaan,<br>
            > maar uit jullie reacties begrijp ik dat het
            ingewikkelder ligt.<br>
            > <br>
            > Ook de suggestie van Daniel von Asmuth<br>
            > <br>
            > ?Probeer eens:<br>
            >         grep -r -i -H -s fiets
            /home/jan-paul/Documenten?<br>
            > <br>
            > heb ik uitgeprobeerd, maar werkte bij mij niet.<br>
            > <br>
            > Ik gebruik de code ? | cut -d: -f1? om een overschot
            aan tekst in rtf-,<br>
            > txt- en html-bestanden kwijt te raken, maar wel het pad
            te behouden.<br>
            > <br>
            > zgrep heb ik ook uitgeprobeerd in plaats van grep; geen
            resultaat.<br>
            > <br>
            > Toch is het merkwaardige dat grep sommige
            Word-documenten met een een<br>
            > bepaald zoekwoord wel op de lijst zet en andere
            Word-documenten met<br>
            > hetzelfde zoekwoord niet.<br>
            <br>
            U zou natuurlijk kunnen proberen om die documenten met 'od'
            te dumpen om<br>
            een idee te krijgen waarom grep het wel of niet vindt. <br>
            <br>
            > Ik heb van alles uitgeprobeerd:<br>
            <br>
            Met vriendelijke groet,<br>
            <br>
            <br>
            <br>
            Daniel von Asmuth <br>
            -- <br>
            <br>
                            How long it takes to reach your goal<br>
                            depends less on your speed than on your
            direction.<br>
            <br>
            <br>
            ------------------------------<br>
            <br>
            Message: 3<br>
            Date: Sat, 20 Jun 2020 09:30:02 +0200<br>
            From: Jan Paul Smit <<a
              href="mailto:jpsmit1951@gmail.com" target="_blank"
              moz-do-not-send="true">jpsmit1951@gmail.com</a>><br>
            To: G?s Hillenius <<a href="mailto:gijs@hillenius.net"
              target="_blank" moz-do-not-send="true">gijs@hillenius.net</a>><br>
            Cc: <a href="mailto:linux@lists.nllgg.nl" target="_blank"
              moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
            Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer
            10<br>
            Message-ID:<br>
                    <<a
href="mailto:CALUn2Lbwjay1QVoiGj1qDvX%2BZeLAmW10ko63T4wn5%2B591E02NA@mail.gmail.com"
              target="_blank" moz-do-not-send="true">CALUn2Lbwjay1QVoiGj1qDvX+ZeLAmW10ko63T4wn5+591E02NA@mail.gmail.com</a>><br>
            Content-Type: text/plain; charset="utf-8"<br>
            <br>
            Beste Geert, Daniel, Gijs en anderen,<br>
            <br>
            Opnieuw bedankt voor jullie commentaar en suggesties! Het
            wordt me langzaam<br>
            maar zeker duidelijk waar de schoen wringt.<br>
            <br>
            Ik heb inderdaad Ubuntu en ik kan alle Word-97 documenten
            probleemloos<br>
            openen in LibreOffice<br>
            <br>
            Ik ga kijken of ik mijn Word-97 documenten om kan zetten in
            txt-bestanden<br>
            via pandoc. In principe zou dat een goede oplossing zijn,
            want<br>
            txt-bestanden kan ik prima doorzoeken met grep.<br>
            <br>
            Groeten, Jan Paul<br>
            <br>
            ===<br>
            <br>
            Op vr 19 jun. 2020 om 12:21 schreef G?s Hillenius <<a
              href="mailto:gijs@hillenius.net" target="_blank"
              moz-do-not-send="true">gijs@hillenius.net</a>>:<br>
            <br>
            > On 19 June 2020 10:32 Jan Paul Smit, wrote:<br>
            ><br>
            ><br>
            > [...]<br>
            ><br>
            ><br>
            > > Bovendien gaat het mij eigenlijk heel eenvoudig om
            zo nu en dan mijn ?<br>
            > > voornamelijk Word 97 ? documenten in mijn map
            Documenten op een bepaald<br>
            > > woord te doorzoeken, als ik er niet uit kom met
            zoeken op een woord(deel)<br>
            > > in de bestandsnaam.<br>
            ><br>
            > Jan Paul,<br>
            ><br>
            > Je gebruikt Ubuntu, toch? Werkt dit?<br>
            ><br>
            > <a
              href="https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en</a><br>
            ><br>
            ><br>
            > Het is me uit de eerder posts hier niet 1 2 3 duidelijk
            of je deze<br>
            > documenten wel of niet kan openen met bijvoorbeeld
            LibreOffice? Da's<br>
            > helemaal niet hetzelfde als zoeken in alle documenten.
            Maar het is toch<br>
            > handig om te weten.<br>
            ><br>
            > Als grep en strings je nu niet helpen, overweeg dan om
            die documenten te<br>
            > exporteren naar text. Dat kan op vele manieren.<br>
            ><br>
            > Ik raad je pandoc aan. Dat moet je misschien nog even
            installeren, maar<br>
            > daar krijg je geen spijt van.<br>
            ><br>
            > Wat ik hieronder doe heb ik op een zootje bestanden
            getest, en het werkt<br>
            > hier. Maar toch - doe onderstaand *niet* in "echte"
            folder, maar maak<br>
            > een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en
            zet daar alle<br>
            > documenten die je wilt converteren.<br>
            ><br>
            > open een shell<br>
            > ga naar die folder - in mijn geval is dat dan:<br>
            ><br>
            > cd /tmp/hutsefluts<br>
            ><br>
            > en tiep dan<br>
            ><br>
            > find . -name \*.docx -type f -exec pandoc -o {}.txt {}
            \;<br>
            ><br>
            > Dit betekent: vind alle files (geen directories) die
            .docx als<br>
            > achtervoegsel hebben, geef ze een voor een aan pandoc,
            en pandoc,<br>
            > converteer ze naar txt.<br>
            ><br>
            > Als je nog oudere documenten hebt in doc, dan brandt
            Pandoc zich daar<br>
            > niet aan. Dan moet het via LibreOffice, bijvoorbeeld<br>
            ><br>
            > find . \( -name \*.doc -o -name \*.docx \) -type f
            -exec soffice<br>
            > --headless --convert-to txt:Text  {} \;<br>
            ><br>
            > Dit betekent: vind alle files doc en of docx en voer ze
            aan libreoffice<br>
            > (synonyiem in de commandline soffice) om er text van te
            maken.<br>
            ><br>
            > Dan heb je in die folder .txt exports, en die zijn veel
            makkelijker te<br>
            > doorzoeken. Als het naar tevredenheid werkt, kan je tzt
            al je doc en docx<br>
            > bestanden opruimen. En da's het beste wat je kan doen
            met gesloten<br>
            > bestandsformaten.<br>
            ><br>
            ------------- volgend deel ------------<br>
            Een HTML-bijlage is gescrubt...<br>
            URL: <<a
href="https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm</a>><br>
            <br>
            ------------------------------<br>
            <br>
            Subject: Verzamelmail-voettekst<br>
            <br>
            _______________________________________________<br>
            Linux mailing list<br>
            <a href="mailto:Linux@lists.nllgg.nl" target="_blank"
              moz-do-not-send="true">Linux@lists.nllgg.nl</a><br>
            <a href="https://lists.nllgg.nl/listinfo/linux"
              rel="noreferrer" target="_blank" moz-do-not-send="true">https://lists.nllgg.nl/listinfo/linux</a><br>
            <br>
            <br>
            ------------------------------<br>
            <br>
            Eind van Linux Verzamelmail, Volume 46, Nummer 12<br>
            *************************************************<br>
          </blockquote>
        </div>
      </div>
    </blockquote>
    <br>
    <pre class="moz-signature" cols="72">-- 
Dr. J.J. Paijmans
</pre>
  </body>
</html>