Sposoby indentyfikacji web crawler'ów

W necie krąży dużo sposobów na identyfikację robotów. Większość (wg moich obserwacji) sprowadza się do sprawdzania $_SERVER['HTTP_USER_AGENT'].

Znalazłem też takie cuś: http://www.develobert.info/2008/11/php-robot-check.html. Autor opiera się tylko na odwołaniach to robots.txt. Co sądzicie o takim podejściu?

Cóż, wielu innych sensownych metod nie ma. Roboty wyszukiwarek i generalnie uczciwe nie maskują się podszywając się pod przeglądarki i w user_agent przekazują swoją nazwę.
Jakieś dziwne szpiegule (np. kradnące kontent), oczywiście wstawią jako user_agent nazwę przeglądarki i tyle. Jedynie na podstawie IP możesz spróbować wnioskować że może to być taki cwaniak, ale jeśli to jest sprytny cwaniak, to tych IP będzie miał wiele, będzie zmieniał etc.
Więc generalnie bazuje się na user_agent.

Mozesz identyfikowac po IP. Ale jak wiesz, samo Google ma mnostwo adresow IP, wiec trzeba byc na biezaco z baza danych adresow. Ja generalnie identyfikuje po user-agent.

Liczba odpowiedzi na stronę

Sposoby indentyfikacji web crawler'ów

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami