Curl z obsługą JavaScript

0

Hej,
czasem bywa tak, że kod HTML jest edytowany dynamicznie przy użyciu języka JavaScript. Często to się dzieje już w czasie ładowania strony lub tuż po załadowaniu (żadna dodatkowa akcja nie jest potrzebna).
Mój soft analizuję stronę na podstawie tagów HTML, która właśnie tak działa.
Kod HTML jest pobierany Curl'em ale fragmenty modyfikowane JavaScript'em nie są widoczne.
Myślałem nad podpięciem jakiegoś JS Engine np. V8 ale nie mam za dużego doświadczenia w tej kwestii i nie wiem czy jest to w ogóle możliwe.
Z tego co wiem V8 nie ma wbudowanej warstwy sieciowej przez co nie poradzi sobie np. z Ajaxem, czy skryptami zapisanymi w osobnym pliku, a to jest ważne.

Ktoś ma jakiś pomysł?

5
  1. Nigdy nie stworzysz w ten spsobó środowiska mniej wiecej dokładnie emulującego przeglądarkę.
  2. jeśli apka jest na JS, to pewnie pobiera dane dynamicznie. Przeanalizuj co pobiera, i tam się zapnij
  3. wiem, ze niektórzy "pożyczają" sobie treści przez Selenium (nie dotykałem tematów)
0

Czy masz możliwość użycia jakiejś biblioteki, która zawiera web browsera (wnętrze przeglądarki osadzone w programie)?
Możnaby utworzyć obiekt webbrowsera, załadować stronę, a potem odczytać HTML, który wtedy będzie po modyfikacjach.

0

@andrzejlisek:
Teoretycznie jest taka możliwość (choć apka jest postawiona na serwerze Ubuntu - to raczej nie problem doinstalować środowisko graficzne systemu plus jakąś przeglądarkę).

1 użytkowników online, w tym zalogowanych: 0, gości: 1