Witam, rozwiązałem już problem zamieszczony w dziale dla webmasterów:
Witam, jestem programistą piszącym głównie w Javie desktopowej, jednak ostatnio wpadł mi mały projekt mocno powiązany z html'em stąd moje pytanie:
dlaczego pobierając stronę metodą GET nie są pobierane wszystkie atrybuty tagów? Np. używając Firebuga na stronie widzę, że dany element ma postać:
<dfn class="lang-en" style="font-style: normal">
a po pobraniu GET'em i sparsowaniu jako dokument html uzyskuję:
<dfn style="font-style: normal">
Dodam, że najwygodniej byłoby mi obrobić taki dokument właśnie wyszukując atrybut "class" danych tagów. Jestem totalnym żółtodziobem jeśli chodzi o HTML, dlatego proszę o wyrozumiałość. Czy ktoś mógłby mi wytłumaczyć dlaczego tak się dzieje oraz czy da się to jakoś obejść i pobierać dokładnie kod który jest docelowo przetwarzany przez przeglądarkę?
Jednak teraz mam pytanie, czy znacie jakiś sposób, aby pobrać kod html strony już po wywołaniu wszystkich skryptów które modyfikują źródło? Chodzi mi konkretnie o ten sam kod, który pokazuje się w Firebugu.
Korzystam obecnie z biblioteki JSoup do parsowania stron html w Javie. Z góry dziękuję za pomoc.