[linux] Linux Verzamelmail, Volume 46, Nummer 10

Jan Paul Smit jpsmit1951 op gmail.com
Za Jun 20 09:30:02 CEST 2020


Beste Geert, Daniel, Gijs en anderen,

Opnieuw bedankt voor jullie commentaar en suggesties! Het wordt me langzaam
maar zeker duidelijk waar de schoen wringt.

Ik heb inderdaad Ubuntu en ik kan alle Word-97 documenten probleemloos
openen in LibreOffice

Ik ga kijken of ik mijn Word-97 documenten om kan zetten in txt-bestanden
via pandoc. In principe zou dat een goede oplossing zijn, want
txt-bestanden kan ik prima doorzoeken met grep.

Groeten, Jan Paul

===

Op vr 19 jun. 2020 om 12:21 schreef Gijs Hillenius <gijs op hillenius.net>:

> On 19 June 2020 10:32 Jan Paul Smit, wrote:
>
>
> [...]
>
>
> > Bovendien gaat het mij eigenlijk heel eenvoudig om zo nu en dan mijn –
> > voornamelijk Word 97 – documenten in mijn map Documenten op een bepaald
> > woord te doorzoeken, als ik er niet uit kom met zoeken op een woord(deel)
> > in de bestandsnaam.
>
> Jan Paul,
>
> Je gebruikt Ubuntu, toch? Werkt dit?
>
> https://help.ubuntu.com/stable/ubuntu-help/files-search.html.en
>
>
> Het is me uit de eerder posts hier niet 1 2 3 duidelijk of je deze
> documenten wel of niet kan openen met bijvoorbeeld LibreOffice? Da's
> helemaal niet hetzelfde als zoeken in alle documenten. Maar het is toch
> handig om te weten.
>
> Als grep en strings je nu niet helpen, overweeg dan om die documenten te
> exporteren naar text. Dat kan op vele manieren.
>
> Ik raad je pandoc aan. Dat moet je misschien nog even installeren, maar
> daar krijg je geen spijt van.
>
> Wat ik hieronder doe heb ik op een zootje bestanden getest, en het werkt
> hier. Maar toch - doe onderstaand *niet* in "echte" folder, maar maak
> een tijdelijke kopie in bijvoorbeeld /tmp/hutsefluts en zet daar alle
> documenten die je wilt converteren.
>
> open een shell
> ga naar die folder - in mijn geval is dat dan:
>
> cd /tmp/hutsefluts
>
> en tiep dan
>
> find . -name \*.docx -type f -exec pandoc -o {}.txt {} \;
>
> Dit betekent: vind alle files (geen directories) die .docx als
> achtervoegsel hebben, geef ze een voor een aan pandoc, en pandoc,
> converteer ze naar txt.
>
> Als je nog oudere documenten hebt in doc, dan brandt Pandoc zich daar
> niet aan. Dan moet het via LibreOffice, bijvoorbeeld
>
> find . \( -name \*.doc -o -name \*.docx \) -type f -exec soffice
> --headless --convert-to txt:Text  {} \;
>
> Dit betekent: vind alle files doc en of docx en voer ze aan libreoffice
> (synonyiem in de commandline soffice) om er text van te maken.
>
> Dan heb je in die folder .txt exports, en die zijn veel makkelijker te
> doorzoeken. Als het naar tevredenheid werkt, kan je tzt al je doc en docx
> bestanden opruimen. En da's het beste wat je kan doen met gesloten
> bestandsformaten.
>
------------- volgend deel ------------
Een HTML-bijlage is gescrubt...
URL: <https://lists.nllgg.nl/pipermail/linux/attachments/20200620/78dffd18/attachment.htm>


Meer informatie over de Linux maillijst