[linux] Linux Verzamelmail, Volume 46, Nummer 12

paai j.j.paijmans op gmail.com
Ma Jun 22 10:13:53 CEST 2020



Ik weet niet hoe comfortabel je bent in bash, maar nu heb je twee sets 
met bestanden te beheren, namelijk he Word bestanden en je text 
bestanden. Dat schreeuwt om een scriptje dat on the fly de Wordbestanden 
converteert en er grep op los laat. soffice lijkt me dan een 
zwaargewicht; zijn er ook lichtere programmas die je dan als een filter 
kunt inbouwen?

Paai




On 22-06-2020 09:50, Jan Paul Smit wrote:
>
> Beste Geert, Daniel, Gijs en anderen,
>
> Het is gelukt!
>
> Zoals Gijs voorstelde, heb ik mijn Word-bestanden omgezet naar 
> txt-bestanden via:
>
> find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice 
> --headless --convert-to txt:Text {} \;
>
> Nu kan ik ze makkelijk doorzoeken met grep:
>
> grep -r -i -l “fiets” /home/jan-paul/Bureaublad/Zoeken
>
> Ik krijg dan een keurig lijstje van de bestanden waarin dit woord 
> voorkomt plus het pad. Precies wat ik wou.
>
> Hartelijk dank voor jullie hulp!
>
> Met vriendelijke groeten, Jan Paul
>
>
> ===
>
> Op za 20 jun. 2020 om 12:00 schreef <linux-request op lists.nllgg.nl 
> <mailto:linux-request op lists.nllgg.nl>>:
>
>     Stuur Linux maillijst aanmeldingen naar
>     linux op lists.nllgg.nl <mailto:linux op lists.nllgg.nl>
>
>     Om u aan of af te melden via het web, bezoek
>     https://lists.nllgg.nl/listinfo/linux
>     of stuur een e-mail bericht met als onderwerp of tekst het woord
>     'help' naar
>     linux-request op lists.nllgg.nl <mailto:linux-request op lists.nllgg.nl>
>
>     U kunt de persoon die de lijst beheert bereiken op
>     linux-owner op lists.nllgg.nl <mailto:linux-owner op lists.nllgg.nl>
>
>     Als u berichten beantwoordt, gelieve meer specifieke informatie in de
>     onderwerp-regel op te nemen dan alleen maar "Re: Inhoud van Linux
>     verzamelmail..."
>
>
>     Onderwerpen van vandaag:
>
>        1. Re: Linux Verzamelmail, Volume 46, Nummer 10 (G?s Hillenius)
>        2. Re: Grep krijgt geen grip op binaire bestanden
>           (Daniel C. von Asmuth)
>        3. Re: Linux Verzamelmail, Volume 46, Nummer 10 (Jan Paul Smit)
>
>
>     ----------------------------------------------------------------------
>
>     Message: 1
>     Date: Fri, 19 Jun 2020 12:21:31 +0200
>     From: G?s Hillenius <gijs op hillenius.net <mailto:gijs op hillenius.net>>
>     To: Jan Paul Smit <jpsmit1951 op gmail.com <mailto:jpsmit1951 op gmail.com>>
>     Cc: linux op lists.nllgg.nl <mailto:linux op lists.nllgg.nl>
>     Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer 10
>     Message-ID: <87ftar9x04.fsf op hillenius.net
>     <mailto:87ftar9x04.fsf op hillenius.net>>
>     Content-Type: text/plain; charset=utf-8
>
>     On 19 June 2020 10:32 Jan Paul Smit, wrote:
>
>
>     [...]
>
>
>     > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan
>     mijn ?
>     > voornamelijk Word 97 ? documenten in mijn map Documenten op een
>     bepaald
>     > woord te doorzoeken, als ik er niet uit kom met zoeken op een
>     woord(deel)
>     > in de bestandsnaam.
>
>     Jan Paul,
>
>     Je gebruikt Ubuntu, toch? Werkt dit?
>
>     https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en
>
>
>     Het is me uit de eerder posts hier niet 1 2 3 duidelijk of je deze
>     documenten wel of niet kan openen met bijvoorbeeld LibreOffice? Da's
>     helemaal niet hetzelfde als zoeken in alle documenten. Maar het is
>     toch
>     handig om te weten.
>
>     Als grep en strings je nu niet helpen, overweeg dan om die
>     documenten te
>     exporteren naar text. Dat kan op vele manieren.
>
>     Ik raad je pandoc aan. Dat moet je misschien nog even installeren,
>     maar
>     daar krijg je geen spijt van.
>
>     Wat ik hieronder doe heb ik op een zootje bestanden getest, en het
>     werkt
>     hier. Maar toch - doe onderstaand *niet* in "echte" folder, maar maak
>     een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet daar alle
>     documenten die je wilt converteren.
>
>     open een shell
>     ga naar die folder - in mijn geval is dat dan:
>
>     cd /tmp/hutsefluts
>
>     en tiep dan
>
>     find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;
>
>     Dit betekent: vind alle files (geen directories) die .docx als
>     achtervoegsel hebben, geef ze een voor een aan pandoc, en pandoc,
>     converteer ze naar txt.
>
>     Als je nog oudere documenten hebt in doc, dan brandt Pandoc zich daar
>     niet aan. Dan moet het via LibreOffice, bijvoorbeeld
>
>     find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice
>     --headless --convert-to txt:Text  {} \;
>
>     Dit betekent: vind alle files doc en of docx en voer ze aan
>     libreoffice
>     (synonyiem in de commandline soffice) om er text van te maken.
>
>     Dan heb je in die folder .txt exports, en die zijn veel makkelijker te
>     doorzoeken. Als het naar tevredenheid werkt, kan je tzt al je doc
>     en docx
>     bestanden opruimen. En da's het beste wat je kan doen met gesloten
>     bestandsformaten.
>
>
>     ------------------------------
>
>     Message: 2
>     Date: Fri, 19 Jun 2020 12:57:04 +0200
>     From: "Daniel C. von Asmuth" <asmuth op bakunin.xs4all.nl
>     <mailto:asmuth op bakunin.xs4all.nl>>
>     To: linux op lists.nllgg.nl <mailto:linux op lists.nllgg.nl>
>     Subject: Re: [linux] Grep krijgt geen grip op binaire bestanden
>     Message-ID: <20200619105704.GA28306 op bakunin.xs4all.nl
>     <mailto:20200619105704.GA28306 op bakunin.xs4all.nl>>
>     Content-Type: text/plain; charset=big5
>
>     Aldus schreef Jan Paul Smit op Fri, Jun 19, 2020 at 10:32:21AM +0200:
>     > Beste Linux-mensen,
>     >
>     > In een vorige mail schreef Daniel von Asmuth:
>     >
>     > https://wiki.debian.org/FullT
>     <https://wiki.debian.org/FullTextSearch>
>     > > > https://www.linuxlinks.com/de
>     > <https://www.linuxlinks.com/desktopsearchengines/>
>     > > > https://dtsearch.com/  (geen gratis software)
>     > > >
>     > > > https://www.linuxuprising.com/
>     >
>     <https://www.linuxuprising.com/2019/05/drill-new-desktop-file-search-utility.html>
>     > > > https://linuxhint.com/best-se
>     >
>     > Ik heb de suggesties bekeken, maar dit is nog te moeilijk voor
>     mij en ik
>     > heb op dit moment niet de tijd om me er heel erg in te verdiepen.
>
>     Het probleem is ook iets ingewikkelder dan het op het eerste
>     gezicht lijkt.
>     Zoals gezegd gaat grep dit niet zo maar kunnen oplossen.
>
>     > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan
>     mijn ?
>     > voornamelijk Word 97 ? documenten in mijn map Documenten op een
>     bepaald
>     > woord te doorzoeken, als ik er niet uit kom met zoeken op een
>     woord(deel)
>     > in de bestandsnaam.
>
>     Word 97 documenten kunt u in platte tekst omzetten met catdoc en
>     recentere
>     word documenten met docx2txt. Daarna kunt u er met grep in zoeken.
>     We weten
>     niet wat voor bestandsformaten u nog meer heeft.
>
>     Eigenlijk zou Pandoc het ook moeten kunnen, maar dat is een vrij
>     complex
>     programma.
>
>     > In mijn onschuld dacht ik dat het om een eenvoudig stukje code
>     zou gaan,
>     > maar uit jullie reacties begrijp ik dat het ingewikkelder ligt.
>     >
>     > Ook de suggestie van Daniel von Asmuth
>     >
>     > ?Probeer eens:
>     >         grep -r -i -H -s fiets /home/jan-paul/Documenten?
>     >
>     > heb ik uitgeprobeerd, maar werkte bij mij niet.
>     >
>     > Ik gebruik de code ? | cut -d: -f1? om een overschot aan tekst
>     in rtf-,
>     > txt- en html-bestanden kwijt te raken, maar wel het pad te behouden.
>     >
>     > zgrep heb ik ook uitgeprobeerd in plaats van grep; geen resultaat.
>     >
>     > Toch is het merkwaardige dat grep sommige Word-documenten met
>     een een
>     > bepaald zoekwoord wel op de lijst zet en andere Word-documenten met
>     > hetzelfde zoekwoord niet.
>
>     U zou natuurlijk kunnen proberen om die documenten met 'od' te
>     dumpen om
>     een idee te krijgen waarom grep het wel of niet vindt.
>
>     > Ik heb van alles uitgeprobeerd:
>
>     Met vriendelijke groet,
>
>
>
>     Daniel von Asmuth
>     -- 
>
>                     How long it takes to reach your goal
>                     depends less on your speed than on your direction.
>
>
>     ------------------------------
>
>     Message: 3
>     Date: Sat, 20 Jun 2020 09:30:02 +0200
>     From: Jan Paul Smit <jpsmit1951 op gmail.com
>     <mailto:jpsmit1951 op gmail.com>>
>     To: G?s Hillenius <gijs op hillenius.net <mailto:gijs op hillenius.net>>
>     Cc: linux op lists.nllgg.nl <mailto:linux op lists.nllgg.nl>
>     Subject: Re: [linux] Linux Verzamelmail, Volume 46, Nummer 10
>     Message-ID:
>            
>     <CALUn2Lbwjay1QVoiGj1qDvX+ZeLAmW10ko63T4wn5+591E02NA op mail.gmail.com
>     <mailto:CALUn2Lbwjay1QVoiGj1qDvX%2BZeLAmW10ko63T4wn5%2B591E02NA op mail.gmail.com>>
>     Content-Type: text/plain; charset="utf-8"
>
>     Beste Geert, Daniel, Gijs en anderen,
>
>     Opnieuw bedankt voor jullie commentaar en suggesties! Het wordt me
>     langzaam
>     maar zeker duidelijk waar de schoen wringt.
>
>     Ik heb inderdaad Ubuntu en ik kan alle Word-97 documenten probleemloos
>     openen in LibreOffice
>
>     Ik ga kijken of ik mijn Word-97 documenten om kan zetten in
>     txt-bestanden
>     via pandoc. In principe zou dat een goede oplossing zijn, want
>     txt-bestanden kan ik prima doorzoeken met grep.
>
>     Groeten, Jan Paul
>
>     ===
>
>     Op vr 19 jun. 2020 om 12:21 schreef G?s Hillenius
>     <gijs op hillenius.net <mailto:gijs op hillenius.net>>:
>
>     > On 19 June 2020 10:32 Jan Paul Smit, wrote:
>     >
>     >
>     > [...]
>     >
>     >
>     > > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en
>     dan mijn ?
>     > > voornamelijk Word 97 ? documenten in mijn map Documenten op
>     een bepaald
>     > > woord te doorzoeken, als ik er niet uit kom met zoeken op een
>     woord(deel)
>     > > in de bestandsnaam.
>     >
>     > Jan Paul,
>     >
>     > Je gebruikt Ubuntu, toch? Werkt dit?
>     >
>     > https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en
>     >
>     >
>     > Het is me uit de eerder posts hier niet 1 2 3 duidelijk of je deze
>     > documenten wel of niet kan openen met bijvoorbeeld LibreOffice? Da's
>     > helemaal niet hetzelfde als zoeken in alle documenten. Maar het
>     is toch
>     > handig om te weten.
>     >
>     > Als grep en strings je nu niet helpen, overweeg dan om die
>     documenten te
>     > exporteren naar text. Dat kan op vele manieren.
>     >
>     > Ik raad je pandoc aan. Dat moet je misschien nog even
>     installeren, maar
>     > daar krijg je geen spijt van.
>     >
>     > Wat ik hieronder doe heb ik op een zootje bestanden getest, en
>     het werkt
>     > hier. Maar toch - doe onderstaand *niet* in "echte" folder, maar
>     maak
>     > een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet daar
>     alle
>     > documenten die je wilt converteren.
>     >
>     > open een shell
>     > ga naar die folder - in mijn geval is dat dan:
>     >
>     > cd /tmp/hutsefluts
>     >
>     > en tiep dan
>     >
>     > find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;
>     >
>     > Dit betekent: vind alle files (geen directories) die .docx als
>     > achtervoegsel hebben, geef ze een voor een aan pandoc, en pandoc,
>     > converteer ze naar txt.
>     >
>     > Als je nog oudere documenten hebt in doc, dan brandt Pandoc zich
>     daar
>     > niet aan. Dan moet het via LibreOffice, bijvoorbeeld
>     >
>     > find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice
>     > --headless --convert-to txt:Text  {} \;
>     >
>     > Dit betekent: vind alle files doc en of docx en voer ze aan
>     libreoffice
>     > (synonyiem in de commandline soffice) om er text van te maken.
>     >
>     > Dan heb je in die folder .txt exports, en die zijn veel
>     makkelijker te
>     > doorzoeken. Als het naar tevredenheid werkt, kan je tzt al je
>     doc en docx
>     > bestanden opruimen. En da's het beste wat je kan doen met gesloten
>     > bestandsformaten.
>     >
>     ------------- volgend deel ------------
>     Een HTML-bijlage is gescrubt...
>     URL:
>     <https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment-0001.htm>
>
>     ------------------------------
>
>     Subject: Verzamelmail-voettekst
>
>     _______________________________________________
>     Linux mailing list
>     Linux op lists.nllgg.nl <mailto:Linux op lists.nllgg.nl>
>     https://lists.nllgg.nl/listinfo/linux
>
>
>     ------------------------------
>
>     Eind van Linux Verzamelmail, Volume 46, Nummer 12
>     *************************************************
>

-- 
Dr. J.J. Paijmans

------------- volgend deel ------------
Een HTML-bijlage is gescrubt...
URL: <https://lists.nllgg.nl/pipermail/linux/attachments/20200622/15547616/attachment-0001.htm>


Meer informatie over de Linux maillijst