wyciąganie danych z pdf

0

Witam, mam zamiar dodać do mojej aplikacji możliwość wysyłania pliku pdf z którego następnie zostaną wyciągnięte takie informacje jak imię, nawizko, adres itp i dodane do bazy danych :)

Co polecacie do wykonania tego zadania?

0

Trochę mi tu śmierdzi malware.
Wait, nie rozumiem.
Twoja aplikacja ma wysyłać pdf, tak? I później pobierać z niego dane? W sensie, ma to ktoś wypełnić?
Czy jak?

0

http://pdfbox.apache.org/ - ekstrakcja tekstu z pdf.

0
Burdzi0 napisał(a):

Trochę mi tu śmierdzi malware.
Wait, nie rozumiem.
Twoja aplikacja ma wysyłać pdf, tak? I później pobierać z niego dane? W sensie, ma to ktoś wypełnić?
Czy jak?

No chcę zbudować sobie stronę. Ma być tam możliwość przesłania pliku pdf, a konkretnie będzie to CV. Program wyszuka tam imię, nazwisko, skille i doda do bazy danych :D

1

Zatrudnienie praktykanta wyjdzie taniej. Serio. Wyciąganie danych z dokumentu w praktyce nie mającego struktury jest bardzo trudne. Sam PDF ma swoją wewnętrzną strukturę, format dokumentu:

http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf
http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/adobe_supplement_iso32000.pdf
http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/adobe_supplement_iso32000_1.pdf

Jednak użytkownicy mogą przysłać dokumenty sformatowane w najróżniejszy sposób. Jeden podeśle formatowanie z wykorzystaniem spacji, inny użyje szpalt, a jeszcze inny tabel. Wewnętrzna struktura dokumentu będzie za każdym razem inna.

0

Ewentualnie możesz pomijać samą strukturę pdfa i korzystać z OCR'a, aczkolwiek będzie to dosyć nieeleganckie i na pewno niewydajne

0

Taniej wyjdzie zrobienie formularza online gdzie kandydat sam wklepie dane ;] Bo z pdfem będzie problem żeby to poprawnie sparsować i stwierdzić co gdzie ma trafić.

1 użytkowników online, w tym zalogowanych: 0, gości: 1