Analiza tekstów z forum

0

Witam, czy istnieje możliwość analizy np postów z facebooka lub fora w php. Chcę stworzyć program który będzie wyszukiwał w tekscie wpisów np nazwy miejscowości (lub też określonych formułą tekstów typu data) i zapisywał. Czy da się to zrobić w php, jeśli nie to w czym? Chciałbym takiego robota napisać niestety nie wiem jak się za to zabrać, gdyż php używałem do prostych aplikacji.

1

Tak.

1

Fajna do takiego "łażenia" po stronach jest biblioteka curl dostępna w dużej liczbie różnych języków programowania (w tym php)

1

poza curlem są jest też bibloiteki typowo do "łażenia" po stronach, zdaje się że http://www.simpletest.org/ tutaj coś znajdziesz.
polecam też WWW:Mechanize, to moduł do Perla, chyba najlepsza tego typu biblioteka jakiej używałem :)
a, no i na fb posty są zdaje się ładowane ajaxem jakims, więc będziesz musiał rozkminic jak to dziala, bo chyba nie ma biblioteki tego typu z pełną obsługą JSa

1

Pełną obsługę JS da Ci phantomjs (http://phantomjs.org/), nawet screenshota zrobi. Możesz postawić na nim mały serwerek i PHP-ową aplikacją zbierać konkretne dane.

0

Świetna sprawa, a testowal ktos z was moze i wie jak z wydajnością poszczególnych rozwiazan? Sam cos takiego planuje napisac na prace inzynierska i bedzie to jeden z moich rozdzialow

0

Nie podam konkretnych liczb, ale parę słów co do wydajności i innych problemów:

Zależy od sprzętu, ale jedyny problem "wydajnościowy" jaki napotykałem (a przy pomocy takiego narzędzia, dokładnie perlowego WWW:Mechanize miałem zrobiony import oferty do sklepu z hurtowni, ~5-10 tysięcy produktów) był czas wczytywania strony - request do DNSa, response, request do serwera, czasem jakiś redirect jeszcze - to trochę zajmowało. czas parsowania był raczej nieduży w porównaniu z tym.

Wiadomo że zależy to też od rozbudowania struktury strony i ewentualnych błędów na niej. To wbrew pozorom dość częsty przypadek, np takie coś: <b>cośtam<i>cośtam</b>coś</i> - większość przeglądarek sobie poradzi, więc jeśli ktoś nie sprawdzi strony walidatorem to przegapi, a biblioteka parsująca albo się wysypie, albo będzie mielić trochę dłużej taki fragment.

No i niektóre strony są pozabezpieczanie przed takim hurtowym przeglądaniem jakimś robaczkiem, i np. po 1000 "kliknięć" na minutę Cię zbanują, więc może to być ograniczeniem.

1 użytkowników online, w tym zalogowanych: 0, gości: 1