PDF2HTML - konwersja

0

Poszukuje już od paru dni jakiegoś konwertera na linuxa, ktory zmienia plik pdf na html. Mam juz zainstalowane na linuxie "pdftohtml" <- fajny program, lecz nie tego szukam. On wyodrębnia tekst - bez prawdziwego formatowania.
Szukam czegoś co ma :
http://viewer.zoho.com
google docs
http://www.convertpdftohtml.net/

Czyli jest obrazek a na nim tekst -> ze użytkownik bedzie mogl kopiowac tresc.
Znacie coś sensownego?

Ogólnie chodzi mi po głowie takie coś: muszę na stronie umieścić plik PDF. Niestety nie mogę udostępnić czystego pliku, bo google bedzie odsylac do niego. Z tego powodu będę tracił na odwiedzających. Myślałem żeby dodac iframe do <a href="http://googlesystem.blogspot.com/2009/07/googles-pdf-viewer-for-search-results.html"google viwer </a> ale jest jeden wielki minus - google bot nie zaindeskuje strony. Co na to poradzic?

0

W Zend Frameworku (bodajże tym nowym, dla 5.3 - z githuba) są potężne klasy do obsługi PDFów. Co prawda musisz sam zakodzić konwersję, ale myślę, że będzie to możliwe.
Ew. możesz skorzystać z ghostscripta, który umożliwia eksport PDFów do grafiki, włącznie z wyodrębnieniem tekstu.

Możesz spróbować także jakiegoś viewera PDFów zrobionego w flashu. Istnieje coś takiego jak Flex Paper, dobre, lecz dla komercyjnych rozwiązań płatne. (z autorem jest bardzo dobry kontakt, dostajemy źródło :)).

0

moim głównym celem jest optymalizacja dla wyszukiwarek -> na google opieram swój cały ruch na stronie. Nie mogę dać zwykłego pdfa - jest to nieopłacalne.

Oglądałem własnie ZEND'a ale widzę tylko przkłady z html do pdf. A ja chce w 2 stronę.

Ghostscript - niestety... może ty wiesz jak przekonwertować w nim na html dokument pdf?

0

Wiem jak tylko wyodrębnić tekst za pomocą Ghostscripta (chodziło mi o pdftotext z Xpdf), za pomocą Zendowskiego tekstu chyba się wyodrębnić nie da. Możesz za to pobrać wszystkie obiekty (obrazki itd. razem z pozycją) z PDFa, więc wystarczy jakbyś to wszystko połączył, i sam generował HTML.

ZF2 PDF: https://github.com/zendframework/zf2/tree/master/library/Zend/Pdf
pdftotext: http://en.wikipedia.org/wiki/Pdftotext

1 użytkowników online, w tym zalogowanych: 0, gości: 1