Komentarze na wp i innych portalach

0

Witajcie, nie programuję w php ale w delphi dlatego potrzebuję pomocy.
Wpadliśmy ze znajomymi na pomysł analizy statystycznej słów uważanych za agresywne oraz przeciwnie, na dużych portalach internetowych w różnych regionach świata celem badania nastrojów społecznych.
Niestety tylko ja programuję z naszej grupy.
Nie potrafię sobie poradzić w kodzie źródłowym strony. Chodzi o miejsce z którego moGę pobrać komentarze.
Program działa przez użycie protokołu http jak przeglądarka i klika na linki na portalach a później ma analizować komentarze, ściągając pliki na dysk i analizując już typowo programistycznie.
Jednak problemem są dla mnie linki , jak wyłuskać z kodu strony częściowo w Javie częściowo w php kod html z komentarzami?
Czy jest to w ogóle wykonalne ? Czy są one ładowane dynamicznie? Bez udziału pośredniej strony z htmlem?
Pozdrawiam i proszę o sugestie jeśli możecie jakiś pomysł podrzucić. Albo link gdzie mogę przeczytać jak te dane są wyświetlane .

0

Komentarze mogą być ładowane przez AJAX, w tym przypadku trzeba np. jakimś inspektorem DOM zbadać stronę i wyłuskać URL skąd mechanizmem AJAX są pobierane komentarze.

Można też do tego podejść inaczej - zrobić swoją własną wtyczkę do przeglądarki - np. Firefox - która to wtyczka będzie robotem wybierającym komentarze ze strony i wysyłającym je np. do bazy danych celem daleszej analizy już przez inny program.

0

Inspektorem analizującym html strony będzie mój program, on będzie szukał tych linków. W kodzie html... o to właśnie chodzi. Mechanizm jest taki ze łatwo mogę ściągnąć stronę jako plik html a później go analizować programistycznie , ale problem dla mnie stanowi miejsce skąd taki plik html- mogę pobrać z tymi danymi. Analizowałem wzrokowo kody tych stron i nie znalazłem liku z komentarzami - tzn być może przeoczyłem ale szybki skan wzrokowy nie wystarcza.

0
Windowbee napisał(a):

Inspektorem analizującym html strony będzie mój program, on będzie szukał tych linków. W kodzie html...

No i tu chociażby na takim facebooku nic byś nie pobrał :D w htmlu nie ma nic, html jest kompilowany na bieżąco przez js, i tak jest aktualnie z większością nowych stron.

0

No i to jest właśnie ten problem. Wyszukiwarki jakoś widza ten tekst i go wyświetlają Wiec jak pobierają takie źródło? Wybaczcie ale z php i js jestem noga totalna.
Najpierw myślałem ze da radę pobrać stronę html wycisnąc linki i w nie wejść itd aż do komentarzy a tu zonk wydaje się ze są dynamicznie ładowane jakoś przez skrypty...
Nie mylę się?

0

Ale co ma php do tego? php się wykonuje po stronie serwera tak jak python, node.js, asp.net i java. Ty nie wiesz co tam się wykonuje pod spodem bo każdy zwróci tak samo wyglądający kod html, albo dane w api. Jak działa np google? Normlanie potrafi przetwarzać kod js.

0
Windowbee napisał(a):

No i to jest właśnie ten problem. Wyszukiwarki jakoś widza ten tekst i go wyświetlają [...]

Dlatego pisze Ci, abyś użył wtyczki do przeglądarki, bo w przeglądarce masz już wszystko wyrenderowane, i nie przejmujesz się, czy to jest JS czy nie, po prostu wybierasz interesujące Cię dane i wysyłasz do bazy danych. Jeżeli nie jesteś w stanie takich prostych rzeczy zrozumieć, to kiepsko to widzę.

0

No to to chyba jest to , jak one zwracają ten kod html? To jest dynamicznie chwilowo tworzona strona html? Czy jakiś strumień danych płynący do podprogramu w przeglądarce?

0

Komentarze np: na WP na bank ładowane są Ajaxem, a przynajmniej większość z nich (po kliknięciu na rozwinięcie komentarzy). Możesz je mieć w treści strony, ale tylko pod warunkiem użycia odpowiedniego narzędzia (najlepsza byłaby headless'owa przeglądarka - Chrome w wersji headless, Phantom.js, Selenium sparowane z przeglądarką pewnie też da radę) Do narzędzia musisz napisać skrypt js, w formie obsługiwanej przez dane narzędzie, który klika rozwinięcie komentarzy. Do Chrome pewnie najlepszy będzie skrypt GreaseMonkey, Phantom.js sam z siebie nic nie robi póki takiego skryptu mu nie zapewnisz jako parametr wywołania. W nim kilka prostych komend do załadowania strony, wykonania kliknięcia i wyplucia pełnej treści. Poczytaj dokumentację narzędzia, które uznasz za najlepsze. PHP nie ma tu nic do rzeczy. PHPem możesz co najwyżej parsować HTML, który uzyskałeś poprzez wykorzystanie powyższych narzędzi.

1 użytkowników online, w tym zalogowanych: 0, gości: 1