Kopiowanie tekstu z PDF

0

Witajcie,

Mam dziwny problem, otóż gdy kopiuje tekst z dokumentu PDF uzywając Adobe Acrobat i przeklejeniu kopiowanego tekstu do każdego edytora tekstowego mam "krzaczki" w miejsach polskich znaków, zna ktoś może aleternatywne narzędzie do przeglądania i kopiowania tekstu z takich dokumentów lub może coś powiedzieć nt. ustawień Acrobat'a i ewentualnie podać rozwiązanie tego problemu?

0

programy ocr ktore "skanuja pdf" i wyciagaja zrodlo np ABBY reader <platne> nara :d [wstyd]

0

Pod Linuxem było takie narzędzie, które się zwało pdf2txt. Czy dalej istnieje i jest rozwijane, to nie wiem, bo ostatnio używałem go jakieś 3,5 roku temu.

Co do OCR'ów - niestety tego typu aplikacje są zawodne. Widziałem już efekty skanów, w których D było zastąpione przez |) i takie tam. Przy dłuższych tekstach i wielu takich błędów robi się to irytujące nawet, jak zdaje się sprawę z tego, że to kombinowane było. W jakichś bardziej profesjonalnych zastosowaniach to całkiem odpada.

0

znalazłem coś takiego pod Win.
http://download.chip.pl/download_50393.html

Niestety w tekście wyeksportowanym - tak jak piszą na CHIP-ie - nie ma polskich znaków.
A na tym mi zależy.

0

No to wez jakikolwiek edytor i zamien hurtowo krzaczki na odpowiadajace im znaki polskie. Szybko i skutecznie. Prawdopodobnie pdf ma jakies inne kodowanie niz to co masz na ekranie - ale nie wiem jakie.

pozdrawiam
johny

0

PDFy stosują różne kodowania. Najgorsze są kodowania indeksowane - pierwszy znaczek, jaki się pojawi w dokumencie to #01, drugi to #02 itd., a gdzieś w nagłówku jest poszczególnym znaczkom przypisany ich właściwy wygląd :/. Pozostałe to jeszcze małe piwo, bo znaki alfabetu łacińskiego się zgadzają, dopiero przy jakichś specjalnych (zazwyczaj nielicznych) znakach pojawiają się krzaczki. A to, jak johny_brawo napisał można łatwo i szybko pozamieniać na to, co tam powinno się znaleźć.

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0