Witam, mam zamiar dodać do mojej aplikacji możliwość wysyłania pliku pdf z którego następnie zostaną wyciągnięte takie informacje jak imię, nawizko, adres itp i dodane do bazy danych :)
Co polecacie do wykonania tego zadania?
Witam, mam zamiar dodać do mojej aplikacji możliwość wysyłania pliku pdf z którego następnie zostaną wyciągnięte takie informacje jak imię, nawizko, adres itp i dodane do bazy danych :)
Co polecacie do wykonania tego zadania?
Trochę mi tu śmierdzi malware.
Wait, nie rozumiem.
Twoja aplikacja ma wysyłać pdf, tak? I później pobierać z niego dane? W sensie, ma to ktoś wypełnić?
Czy jak?
http://pdfbox.apache.org/ - ekstrakcja tekstu z pdf.
Burdzi0 napisał(a):
Trochę mi tu śmierdzi malware.
Wait, nie rozumiem.
Twoja aplikacja ma wysyłać pdf, tak? I później pobierać z niego dane? W sensie, ma to ktoś wypełnić?
Czy jak?
No chcę zbudować sobie stronę. Ma być tam możliwość przesłania pliku pdf, a konkretnie będzie to CV. Program wyszuka tam imię, nazwisko, skille i doda do bazy danych :D
Zatrudnienie praktykanta wyjdzie taniej. Serio. Wyciąganie danych z dokumentu w praktyce nie mającego struktury jest bardzo trudne. Sam PDF ma swoją wewnętrzną strukturę, format dokumentu:
http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf
http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/adobe_supplement_iso32000.pdf
http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/adobe_supplement_iso32000_1.pdf
Jednak użytkownicy mogą przysłać dokumenty sformatowane w najróżniejszy sposób. Jeden podeśle formatowanie z wykorzystaniem spacji, inny użyje szpalt, a jeszcze inny tabel. Wewnętrzna struktura dokumentu będzie za każdym razem inna.
Ewentualnie możesz pomijać samą strukturę pdfa i korzystać z OCR'a, aczkolwiek będzie to dosyć nieeleganckie i na pewno niewydajne
Taniej wyjdzie zrobienie formularza online gdzie kandydat sam wklepie dane ;] Bo z pdfem będzie problem żeby to poprawnie sparsować i stwierdzić co gdzie ma trafić.