Mam do uporządkowania ogromne ilości danych - około 50 TB. Pracuję na Linuxie, w grę wchodzą głównie narzędzia konsolowe + skrypty.
co trzeba zrobić:
- sprawdzenie czy pliki mają duplikaty
- eliminacja duplikatów
- jest około 50 000 nienazwanych PDFów - trzeba nazwać te PDFy (przydzielić nazwę), bo aktualna nazwa jest "randomowa" (wygenerowana)
- uporządkować PDFy według swojej zawartośći, np. do folderu "faktury" dać PDFy z fakturami
- jest około 100 000 plików JPG - należy nazwać i uporządkować pliki JPG, według zawartości, umieścić w folderach
- usunięcie plików śmieciowych, około 30% to zwykłe śmieci, np. jakieś fragmenty czegoś-tam
- nienazwane pliki *.docx, umieścić w folderach i nazwać (kilka tysięcy)
- w przypadku plików JPG dobrze byłoby sprawdzić daty, ale najgorsze, że nie każdy z nich ma dobrze pokazaną datę (datę zrobienia fotografii lub skanu)
- najgorsze: wśród tych 100 000 jpgów jest kilkanaście bardzo ważnych fotografii (skanów dokumentów i aktów własności), nie wiem jak to znaleźć, bo szukanie ręczne to jest masakra ;/ , mogą być też w zipach
- jakieś ogromne ilości zipów - wypadałoby rozpakować i uporządkować te pliki, np. nazwać JPG i umieścić w folderach
ma ktoś jakieś sposoby na pomoc w rozwiązaniu tego problemu?
Ręcznie to będę chyba z pół roku przy tym siedział ;/
Każde narzędzia i sugestie mile widziane