iTextSharp nie nadaje się do parsowania pdf (a przynajmniej nie z moim stanem wiedzy).
udało mi się częściowo zrobić to przy pomocy PDFBox'a, ale niestety biblioteka jest ciężka i niezbyt szybka (port z javy - dochodzi około 10MB IKVM i 6MB samej biblioteki, start środowiska trwa kilka sekund, na szczęście później przyspiesza), a dokumentacja ssie. udało mi się wyciągnąć wszystkie teksty razem z ich pozycjami, ale jak zachciało mi się mieć jeszcze wszystkie linie ("l" i "m") i prostokąty ("re"), to zrobiło się pod górkę; niektóre wyciągane moją metodą linie mają nieprawidłowe współrzędne. wiem, że PDFBox potrafi narysować całego pdfa dobrze (gotowa metoda do eksportowania do obrazka działa poprawnie), tylko ja nie umiem zmusić go do tego. bawił się ktoś pdfbox'em?
zacząłem rozglądać się za kolejnymi bibliotekami. PDFsharp, Report.NET, SharpPDF, ASP.NET fo PDF, PDFjet Open Source Edition - wszystkie odpadają, mają znikomy interfejs do parsowania pdf. PDF Clown wygląda fajnie, ale... wymaga .net 3.5, a ja z pewnych względów muszę mieć 2.0. Ghostview jest dla mnie niezrozumiałe i chyba nie ma porta do c#.
walczę teraz z xpdf i mupdf, xpdf jest bardzo szybki, nieduży (dll ma 3MB - pikuś przy 15MB PDFBox'a), ma opakowanie w c# pod .net 2.0 i na pewno potrafi zrobić to, co potrzebuję, tylko brak dobrej dokumentacji. mupdf nie ma w ogóle dokumentacji. i tu kolejne pytanie, może tym razem uda mi się uzyskać odpowiedź - czy ktoś z was pracował z xpdf lub mupdf i może mi podpowiedzieć jak mogę zebrać listę wszystkich tekstów i linii oraz ich położeń na danej stronie?