<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<br>
<br>
Ik weet niet hoe comfortabel je bent in bash, maar nu heb je twee
sets met bestanden te beheren, namelijk he Word bestanden en je text
bestanden. Dat schreeuwt om een scriptje dat on the fly de
Wordbestanden converteert en er grep op los laat. soffice lijkt me
dan een zwaargewicht; zijn er ook lichtere programmas die je dan als
een filter kunt inbouwen?<br>
<br>
Paai<br>
<br>
<br>
<br>
<br>
<div class="moz-cite-prefix">On 22-06-2020 09:50, Jan Paul Smit
wrote:<br>
</div>
<blockquote type="cite"
cite="mid:CALUn2LYG8yk2qo7ULmfCpMx8rmuC72c2oJ7WO9FsEVOTa_pVYw@mail.gmail.com">
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
<div dir="ltr">
<div dir="ltr"> <span></span>
<p class="gmail-western"
style="margin-bottom:0cm;font-family:"Times New
Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
<span></span>Beste Geert, Daniel,
Gijs en anderen,</p>
<p style="margin-bottom:0cm;font-family:"Times New
Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
</p>
<p style="margin-bottom:0cm;font-family:"Times New
Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">Het
is gelukt!</p>
<p style="margin-bottom:0cm;font-family:"Times New
Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
</p>
<p style="margin-bottom:0cm;font-family:"Times New
Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">Zoals
Gijs voorstelde,
heb ik mijn Word-bestanden omgezet naar txt-bestanden via:</p>
<p style="margin-bottom:0cm;font-family:"Times New
Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
</p>
<p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)"><font
color="#ed1c24">find . \( -name \*.doc -o
-name \*.docx \) -type f -exec soffice --headless
--convert-to
txt:Text {} \; </font>
</p>
<p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Nu
kan ik ze makkelijk doorzoeken met grep:</p>
<p style="margin-bottom:0cm;font-family:"Times New
Roman",serif;font-size:12pt;direction:ltr;color:rgb(0,0,0)">
<font color="#ed1c24">grep
-r -i -l “fiets” /home/jan-paul/Bureaublad/Zoeken</font></p>
<p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Ik
krijg dan een keurig lijstje van de bestanden
waarin dit woord voorkomt plus het pad. Precies wat ik wou.</p>
<p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Hartelijk
dank voor jullie hulp!</p>
<p style="font-family:"Times New
Roman",serif;font-size:12pt;margin-bottom:0.21cm;direction:ltr;color:rgb(0,0,0)">Met
vriendelijke groeten, Jan Paul</p>
</div>
<div dir="ltr"><br>
</div>
<div dir="ltr">
=== <br>
</div>
<br>
<div class="gmail_quote">
<div dir="ltr" class="gmail_attr">Op za 20 jun. 2020 om 12:00
schreef <<a href="mailto:linux-request@lists.nllgg.nl"
target="_blank" moz-do-not-send="true">linux-request@lists.nllgg.nl</a>>:<br>
</div>
<blockquote class="gmail_quote" style="margin:0px 0px 0px
0.8ex;border-left:1px solid
rgb(204,204,204);padding-left:1ex">Stuur Linux maillijst
aanmeldingen naar<br>
<a href="mailto:linux@lists.nllgg.nl"
target="_blank" moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
<br>
Om u aan of af te melden via het web, bezoek<br>
<a href="https://lists.nllgg.nl/listinfo/linux"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://lists.nllgg.nl/listinfo/linux</a><br>
of stuur een e-mail bericht met als onderwerp of tekst het
woord<br>
'help' naar<br>
<a href="mailto:linux-request@lists.nllgg.nl"
target="_blank" moz-do-not-send="true">linux-request@lists.nllgg.nl</a><br>
<br>
U kunt de persoon die de lijst beheert bereiken op<br>
<a href="mailto:linux-owner@lists.nllgg.nl"
target="_blank" moz-do-not-send="true">linux-owner@lists.nllgg.nl</a><br>
<br>
Als u berichten beantwoordt, gelieve meer specifieke
informatie in de<br>
onderwerp-regel op te nemen dan alleen maar "Re: Inhoud van
Linux<br>
verzamelmail..."<br>
<br>
<br>
Onderwerpen van vandaag:<br>
<br>
1. Re: Linux Verzamelmail, Volume 46, Nummer 10 (G?s
Hillenius)<br>
2. Re: Grep krijgt geen grip op binaire bestanden<br>
(Daniel C. von Asmuth)<br>
3. Re: Linux Verzamelmail, Volume 46, Nummer 10 (Jan Paul
Smit)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Fri, 19 Jun 2020 12:21:31 +0200<br>
From: G?s Hillenius <<a href="mailto:gijs@hillenius.net"
target="_blank" moz-do-not-send="true">gijs@hillenius.net</a>><br>
To: Jan Paul Smit <<a href="mailto:jpsmit1951@gmail.com"
target="_blank" moz-do-not-send="true">jpsmit1951@gmail.com</a>><br>
Cc: <a href="mailto:linux@lists.nllgg.nl" target="_blank"
moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer
10<br>
Message-ID: <<a
href="mailto:87ftar9x04.fsf@hillenius.net" target="_blank"
moz-do-not-send="true">87ftar9x04.fsf@hillenius.net</a>><br>
Content-Type: text/plain; charset=utf-8<br>
<br>
On 19 June 2020 10:32 Jan Paul Smit, wrote:<br>
<br>
<br>
[...]<br>
<br>
<br>
> Bovendien gaat het mij eigenlijk heel eenvoudig om zo
nu en dan mijn ?<br>
> voornamelijk Word 97 ? documenten in mijn map
Documenten op een bepaald<br>
> woord te doorzoeken, als ik er niet uit kom met zoeken
op een woord(deel)<br>
> in de bestandsnaam.<br>
<br>
Jan Paul,<br>
<br>
Je gebruikt Ubuntu, toch? Werkt dit?<br>
<br>
<a
href="https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en</a><br>
<br>
<br>
Het is me uit de eerder posts hier niet 1 2 3 duidelijk of
je deze<br>
documenten wel of niet kan openen met bijvoorbeeld
LibreOffice? Da's<br>
helemaal niet hetzelfde als zoeken in alle documenten. Maar
het is toch<br>
handig om te weten.<br>
<br>
Als grep en strings je nu niet helpen, overweeg dan om die
documenten te<br>
exporteren naar text. Dat kan op vele manieren.<br>
<br>
Ik raad je pandoc aan. Dat moet je misschien nog even
installeren, maar<br>
daar krijg je geen spijt van.<br>
<br>
Wat ik hieronder doe heb ik op een zootje bestanden getest,
en het werkt<br>
hier. Maar toch - doe onderstaand *niet* in "echte" folder,
maar maak<br>
een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet
daar alle<br>
documenten die je wilt converteren.<br>
<br>
open een shell<br>
ga naar die folder - in mijn geval is dat dan:<br>
<br>
cd /tmp/hutsefluts<br>
<br>
en tiep dan<br>
<br>
find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;<br>
<br>
Dit betekent: vind alle files (geen directories) die .docx
als<br>
achtervoegsel hebben, geef ze een voor een aan pandoc, en
pandoc,<br>
converteer ze naar txt.<br>
<br>
Als je nog oudere documenten hebt in doc, dan brandt Pandoc
zich daar<br>
niet aan. Dan moet het via LibreOffice, bijvoorbeeld<br>
<br>
find . \( -name \*.doc -o -name \*.docx \) -type f -exec
soffice --headless --convert-to txt:Text {} \;<br>
<br>
Dit betekent: vind alle files doc en of docx en voer ze aan
libreoffice<br>
(synonyiem in de commandline soffice) om er text van te
maken.<br>
<br>
Dan heb je in die folder .txt exports, en die zijn veel
makkelijker te<br>
doorzoeken. Als het naar tevredenheid werkt, kan je tzt al
je doc en docx<br>
bestanden opruimen. En da's het beste wat je kan doen met
gesloten<br>
bestandsformaten.<br>
<br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Fri, 19 Jun 2020 12:57:04 +0200<br>
From: "Daniel C. von Asmuth" <<a
href="mailto:asmuth@bakunin.xs4all.nl" target="_blank"
moz-do-not-send="true">asmuth@bakunin.xs4all.nl</a>><br>
To: <a href="mailto:linux@lists.nllgg.nl" target="_blank"
moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
Subject: Re: [linux] Grep krijgt geen grip op binaire
bestanden<br>
Message-ID: <<a
href="mailto:20200619105704.GA28306@bakunin.xs4all.nl"
target="_blank" moz-do-not-send="true">20200619105704.GA28306@bakunin.xs4all.nl</a>><br>
Content-Type: text/plain; charset=big5<br>
<br>
Aldus schreef Jan Paul Smit op Fri, Jun 19, 2020 at
10:32:21AM +0200:<br>
> Beste Linux-mensen,<br>
> <br>
> In een vorige mail schreef Daniel von Asmuth:<br>
> <br>
> <a href="https://wiki.debian.org/FullT"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://wiki.debian.org/FullT</a>
<<a href="https://wiki.debian.org/FullTextSearch"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://wiki.debian.org/FullTextSearch</a>><br>
> > > <a
href="https://www.linuxlinks.com/de" rel="noreferrer"
target="_blank" moz-do-not-send="true">https://www.linuxlinks.com/de</a><br>
> <<a
href="https://www.linuxlinks.com/desktopsearchengines/"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://www.linuxlinks.com/desktopsearchengines/</a>><br>
> > > <a href="https://dtsearch.com/"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://dtsearch.com/</a>
(geen gratis software)<br>
> > ><br>
> > > <a href="https://www.linuxuprising.com/"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://www.linuxuprising.com/</a><br>
> <<a
href="https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html</a>><br>
> > > <a
href="https://linuxhint.com/best-se" rel="noreferrer"
target="_blank" moz-do-not-send="true">https://linuxhint.com/best-se</a><br>
> <br>
> Ik heb de suggesties bekeken, maar dit is nog te
moeilijk voor mij en ik<br>
> heb op dit moment niet de tijd om me er heel erg in te
verdiepen.<br>
<br>
Het probleem is ook iets ingewikkelder dan het op het eerste
gezicht lijkt. <br>
Zoals gezegd gaat grep dit niet zo maar kunnen oplossen. <br>
<br>
> Bovendien gaat het mij eigenlijk heel eenvoudig om zo
nu en dan mijn ?<br>
> voornamelijk Word 97 ? documenten in mijn map
Documenten op een bepaald<br>
> woord te doorzoeken, als ik er niet uit kom met zoeken
op een woord(deel)<br>
> in de bestandsnaam.<br>
<br>
Word 97 documenten kunt u in platte tekst omzetten met
catdoc en recentere<br>
word documenten met docx2txt. Daarna kunt u er met grep in
zoeken. We weten<br>
niet wat voor bestandsformaten u nog meer heeft. <br>
<br>
Eigenlijk zou Pandoc het ook moeten kunnen, maar dat is een
vrij complex<br>
programma. <br>
<br>
> In mijn onschuld dacht ik dat het om een eenvoudig
stukje code zou gaan,<br>
> maar uit jullie reacties begrijp ik dat het
ingewikkelder ligt.<br>
> <br>
> Ook de suggestie van Daniel von Asmuth<br>
> <br>
> ?Probeer eens:<br>
> grep -r -i -H -s fiets
/home/jan-paul/Documenten?<br>
> <br>
> heb ik uitgeprobeerd, maar werkte bij mij niet.<br>
> <br>
> Ik gebruik de code ? | cut -d: -f1? om een overschot
aan tekst in rtf-,<br>
> txt- en html-bestanden kwijt te raken, maar wel het pad
te behouden.<br>
> <br>
> zgrep heb ik ook uitgeprobeerd in plaats van grep; geen
resultaat.<br>
> <br>
> Toch is het merkwaardige dat grep sommige
Word-documenten met een een<br>
> bepaald zoekwoord wel op de lijst zet en andere
Word-documenten met<br>
> hetzelfde zoekwoord niet.<br>
<br>
U zou natuurlijk kunnen proberen om die documenten met 'od'
te dumpen om<br>
een idee te krijgen waarom grep het wel of niet vindt. <br>
<br>
> Ik heb van alles uitgeprobeerd:<br>
<br>
Met vriendelijke groet,<br>
<br>
<br>
<br>
Daniel von Asmuth <br>
-- <br>
<br>
How long it takes to reach your goal<br>
depends less on your speed than on your
direction.<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Sat, 20 Jun 2020 09:30:02 +0200<br>
From: Jan Paul Smit <<a
href="mailto:jpsmit1951@gmail.com" target="_blank"
moz-do-not-send="true">jpsmit1951@gmail.com</a>><br>
To: G?s Hillenius <<a href="mailto:gijs@hillenius.net"
target="_blank" moz-do-not-send="true">gijs@hillenius.net</a>><br>
Cc: <a href="mailto:linux@lists.nllgg.nl" target="_blank"
moz-do-not-send="true">linux@lists.nllgg.nl</a><br>
Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer
10<br>
Message-ID:<br>
<<a
href="mailto:CALUn2Lbwjay1QVoiGj1qDvX%2BZeLAmW10ko63T4wn5%2B591E02NA@mail.gmail.com"
target="_blank" moz-do-not-send="true">CALUn2Lbwjay1QVoiGj1qDvX+ZeLAmW10ko63T4wn5+591E02NA@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="utf-8"<br>
<br>
Beste Geert, Daniel, Gijs en anderen,<br>
<br>
Opnieuw bedankt voor jullie commentaar en suggesties! Het
wordt me langzaam<br>
maar zeker duidelijk waar de schoen wringt.<br>
<br>
Ik heb inderdaad Ubuntu en ik kan alle Word-97 documenten
probleemloos<br>
openen in LibreOffice<br>
<br>
Ik ga kijken of ik mijn Word-97 documenten om kan zetten in
txt-bestanden<br>
via pandoc. In principe zou dat een goede oplossing zijn,
want<br>
txt-bestanden kan ik prima doorzoeken met grep.<br>
<br>
Groeten, Jan Paul<br>
<br>
===<br>
<br>
Op vr 19 jun. 2020 om 12:21 schreef G?s Hillenius <<a
href="mailto:gijs@hillenius.net" target="_blank"
moz-do-not-send="true">gijs@hillenius.net</a>>:<br>
<br>
> On 19 June 2020 10:32 Jan Paul Smit, wrote:<br>
><br>
><br>
> [...]<br>
><br>
><br>
> > Bovendien gaat het mij eigenlijk heel eenvoudig om
zo nu en dan mijn ?<br>
> > voornamelijk Word 97 ? documenten in mijn map
Documenten op een bepaald<br>
> > woord te doorzoeken, als ik er niet uit kom met
zoeken op een woord(deel)<br>
> > in de bestandsnaam.<br>
><br>
> Jan Paul,<br>
><br>
> Je gebruikt Ubuntu, toch? Werkt dit?<br>
><br>
> <a
href="https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en</a><br>
><br>
><br>
> Het is me uit de eerder posts hier niet 1 2 3 duidelijk
of je deze<br>
> documenten wel of niet kan openen met bijvoorbeeld
LibreOffice? Da's<br>
> helemaal niet hetzelfde als zoeken in alle documenten.
Maar het is toch<br>
> handig om te weten.<br>
><br>
> Als grep en strings je nu niet helpen, overweeg dan om
die documenten te<br>
> exporteren naar text. Dat kan op vele manieren.<br>
><br>
> Ik raad je pandoc aan. Dat moet je misschien nog even
installeren, maar<br>
> daar krijg je geen spijt van.<br>
><br>
> Wat ik hieronder doe heb ik op een zootje bestanden
getest, en het werkt<br>
> hier. Maar toch - doe onderstaand *niet* in "echte"
folder, maar maak<br>
> een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en
zet daar alle<br>
> documenten die je wilt converteren.<br>
><br>
> open een shell<br>
> ga naar die folder - in mijn geval is dat dan:<br>
><br>
> cd /tmp/hutsefluts<br>
><br>
> en tiep dan<br>
><br>
> find . -name \*.docx -type f -exec pandoc -o {}.txt {}
\;<br>
><br>
> Dit betekent: vind alle files (geen directories) die
.docx als<br>
> achtervoegsel hebben, geef ze een voor een aan pandoc,
en pandoc,<br>
> converteer ze naar txt.<br>
><br>
> Als je nog oudere documenten hebt in doc, dan brandt
Pandoc zich daar<br>
> niet aan. Dan moet het via LibreOffice, bijvoorbeeld<br>
><br>
> find . \( -name \*.doc -o -name \*.docx \) -type f
-exec soffice<br>
> --headless --convert-to txt:Text {} \;<br>
><br>
> Dit betekent: vind alle files doc en of docx en voer ze
aan libreoffice<br>
> (synonyiem in de commandline soffice) om er text van te
maken.<br>
><br>
> Dan heb je in die folder .txt exports, en die zijn veel
makkelijker te<br>
> doorzoeken. Als het naar tevredenheid werkt, kan je tzt
al je doc en docx<br>
> bestanden opruimen. En da's het beste wat je kan doen
met gesloten<br>
> bestandsformaten.<br>
><br>
------------- volgend deel ------------<br>
Een HTML-bijlage is gescrubt...<br>
URL: <<a
href="https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm</a>><br>
<br>
------------------------------<br>
<br>
Subject: Verzamelmail-voettekst<br>
<br>
_______________________________________________<br>
Linux mailing list<br>
<a href="mailto:Linux@lists.nllgg.nl" target="_blank"
moz-do-not-send="true">Linux@lists.nllgg.nl</a><br>
<a href="https://lists.nllgg.nl/listinfo/linux"
rel="noreferrer" target="_blank" moz-do-not-send="true">https://lists.nllgg.nl/listinfo/linux</a><br>
<br>
<br>
------------------------------<br>
<br>
Eind van Linux Verzamelmail, Volume 46, Nummer 12<br>
*************************************************<br>
</blockquote>
</div>
</div>
</blockquote>
<br>
<pre class="moz-signature" cols="72">--
Dr. J.J. Paijmans
</pre>
</body>
</html>