Kopiowanie tekstu z PDF

Odpowiedz Nowy wątek
2006-09-20 16:23

Rejestracja: 17 lat temu

Ostatnio: 1 rok temu

0

Witajcie,

Mam dziwny problem, otóż gdy kopiuje tekst z dokumentu PDF uzywając Adobe Acrobat i przeklejeniu kopiowanego tekstu do każdego edytora tekstowego mam "krzaczki" w miejsach polskich znaków, zna ktoś może aleternatywne narzędzie do przeglądania i kopiowania tekstu z takich dokumentów lub może coś powiedzieć nt. ustawień Acrobat'a i ewentualnie podać rozwiązanie tego problemu?

Pozostało 580 znaków

edekz kariny mazakow
2006-09-20 17:24
edekz kariny mazakow
0

programy ocr ktore "skanuja pdf" i wyciagaja zrodlo np ABBY reader <platne> nara :d [wstyd]

Pozostało 580 znaków

2006-09-20 20:00

Rejestracja: 16 lat temu

Ostatnio: 9 lat temu

0

Pod Linuxem było takie narzędzie, które się zwało pdf2txt. Czy dalej istnieje i jest rozwijane, to nie wiem, bo ostatnio używałem go jakieś 3,5 roku temu.

Co do OCR'ów - niestety tego typu aplikacje są zawodne. Widziałem już efekty skanów, w których D było zastąpione przez |) i takie tam. Przy dłuższych tekstach i wielu takich błędów robi się to irytujące nawet, jak zdaje się sprawę z tego, że to kombinowane było. W jakichś bardziej profesjonalnych zastosowaniach to całkiem odpada.


Grunt to uziemienie...

Pozostało 580 znaków

2006-09-21 14:11

Rejestracja: 17 lat temu

Ostatnio: 1 rok temu

0

znalazłem coś takiego pod Win.
http://download.chip.pl/download_50393.html

Niestety w tekście wyeksportowanym - tak jak piszą na CHIP-ie - nie ma polskich znaków.
A na tym mi zależy.

Pozostało 580 znaków

2006-09-21 14:33

Rejestracja: 14 lat temu

Ostatnio: 8 lat temu

0

No to wez jakikolwiek edytor i zamien hurtowo krzaczki na odpowiadajace im znaki polskie. Szybko i skutecznie. Prawdopodobnie pdf ma jakies inne kodowanie niz to co masz na ekranie - ale nie wiem jakie.

pozdrawiam
johny


You need to learn how to walk
before you can run

Pozostało 580 znaków

2006-09-21 15:14

Rejestracja: 16 lat temu

Ostatnio: 9 lat temu

0

PDFy stosują różne kodowania. Najgorsze są kodowania indeksowane - pierwszy znaczek, jaki się pojawi w dokumencie to #01, drugi to #02 itd., a gdzieś w nagłówku jest poszczególnym znaczkom przypisany ich właściwy wygląd :/. Pozostałe to jeszcze małe piwo, bo znaki alfabetu łacińskiego się zgadzają, dopiero przy jakichś specjalnych (zazwyczaj nielicznych) znakach pojawiają się krzaczki. A to, jak johny_brawo napisał można łatwo i szybko pozamieniać na to, co tam powinno się znaleźć.


Grunt to uziemienie...

Pozostało 580 znaków

Odpowiedz

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0