[linux] Re: ideetje: heeft iemand dit al een keer bedacht?

Kees Theunissen theuniss op rijnh.nl
Do Aug 9 22:19:52 CEST 2007


On Thu, 9 Aug 2007, joop gerritse wrote:

>On Thursday 09 August 2007 01:55:00 Hugo van der Kooij wrote:
>>
>> find /tree/chaos/ -type f -exec md5sum {} \; | \
>> sort | \
>> uniq --repeated --chec-chars=32
>
>Ja, daar dacht ik ook al meteen aan. Maar voor 200000 files (zo'n 400G aan
>data) gaat dat wel even duren. Vandaar dat ik denk dat je beter eerst op
>lengte kunt sorteren. Maar je hebt gelijk-- het is waarschijnlijk eenvoudiger
>om zelf even wat te timmeren... ga ik in het weekend eens naar kijken.

Als de bestands- en directory-namen netjes zijn (geen spaties of andere
junk-chars in de namen) en de grootte van elk bestand met 10 cijfers kan
worden weergegeven:

find /tree/chaos -type f -ls  | \
awk '{printf "%10d %s\n", $7, $11 }'  | \
sort  | \
uniq --all-repeated --check-chars=10  | \
cut --bytes=12-  | \
xargs md5sum  | \
sort  | \
uniq --all-repeated --check-chars=32


Groeten,

Kees.

-- 
Kees Theunissen
F.O.M.-Instituut voor Plasmafysica Rijnhuizen, Nieuwegein
E-mail: theuniss op rijnh.nl,     Tel: 030-6096724,     Fax: 030-6031204



More information about the Linux mailing list