Robots.txt

Ktos

Plik Robots.txt jest pierwszym plikiem sprawdzanym przez robota indeksującego strony.
W tymże pliku spisujemy ustawienia przeznaczone dla robotów, ustawienia te precyzyjnie mówią co ma być a co nie ma być indeksowane.
Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.
Plik taki należy umieścić w głównym katalogu serwisu WWW. Plik robots.txt jest specjalnym dokumentem tekstowym stosującym specjalny protokół - Robots Exclusion Protocol, który pozwala administratorowi strony zablokować dostęp wybranym robotom do określonych plików/folderów na serwerze.

Przykładowa zawartość pliku robots.txt:

User-agent: *   - oznacza jakie roboty mogą czytać ten plik (najlepiej * - wszystkie)
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /temp/index.html - nie zezwalaj na indeksowanie folderów admin, cgi-bin i pliku index.html w folderze temp

Pole User-agent zawiera informacje na temat tego, jakich robotów (wyszukiwarek) dotyczy dany rekord.
Gwiazdka () po User-agent oznajmia, że zakaz dotyczy wszystkich robotów, jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas w miejsce gwiazdki () wpisuje się jego nazwę np:

<font name="Courier New">User-agent: googlebot</span>

Pole Disallow określa konkretne foldery i pliki na serwerze, które mogą być pominięte przy indeksacji, należy pamiętać o tym, że nie można tu stosować " * " - trzeba wszystko wypisać np:

User-agent: *   - oznacza jakie roboty mogą czytać ten plik (najlepiej *)
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /temp/index.html - nie zezwalaj na indeksowanie folderów admin, cgi-bin i pliku index.html w folderze temp

Powyższy kod zabrania wszystkim szperaczom czytania zawartości folderu admin, cgi-bin i pliku index.html umieszczonym w folderze temp.

Inne przykłady ograniczeń:

Google nie indeksuje obrazków - pozwala czasami zaoszczędzić transfer , kosztem braku obrazków w google images

User-agent: Googlebot-Image
Disallow: /obrazki/

Indeksuje wszystko -tak, jak gdyby plik robots.txt byłby pusty lub gdyby nie było go wcale

User-agent: *
Disallow:

Nie indeksuj niczego - taki wpis w pliku robots.txt spowoduje, że nasza witryna nie będzie widoczna w wyszukiwarkach

User-agent: *
Disallow: /

Gulliver nie indeksuje niczego - reszta wszystko

User-agent: gulliver
Disallow: /

Pozwalamy na indeksacje tylko gulliver'owi

User-agent: gulliver
Disallow:

User-agent: *
Disallow: /

Oto przykładowy plik robots.txt ze strony www.alexa.com:

# The crawlers listed below are allowed on the Alexa site.
# Alexa allows other crawlers on a case by case basis.
# Send requests to [email protected].
#
# Alexa provides access to traffic ranking data via Amazon Web Services.
# More information here: <URL: http://www.amazon.com/gp/browse.html/?node=12920391>

User-agent: googlebot
Disallow: /search  

User-agent: gulliver
Disallow: /search   

User-agent: slurp
Disallow: /search   

User-agent: fast
Disallow: /search   

User-agent: scooter
Disallow: /search   

User-agent: vscooter
Disallow: /search   

User-agent: ia_archiver
Disallow: /search   

User-agent: Nutch
Disallow: /search   

User-agent: FAST-WebCrawler
Disallow: /search   

User-agent: teoma_agent1
Disallow: /search   

User-agent: Lycos_Spider_(T-Rex)
Disallow: /search   

User-agent: MSNBOT/0.1
Disallow: /search   

User-agent: ArchitextSpider
Disallow: /search   

User-agent: ZyBorg
Disallow: /search   

User-agent: SurveyBot
Disallow: /search   

/# Disallow all other crawlers   

User-agent: *
Disallow: /

Zakaz dostępu do pliku

Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
index - pozwala robotom indeksować stronę
noindex - zapobiega indeksowaniu strony przez roboty
follow - pozwala robotom indeksować strony, do których dotrze poprzez linki w danej witrynie
nofollow - zabrania robotom indeksować stron, do których linki znajdują się w danej witrynie
all - zastępuje "index, follow"
none - zastępuje "noindex, nofollow"
Przykładowy tag ROBOTS wygląda następująco:

<META NAME="robots" CONTENT="index, follow" >

2 komentarzy

Ale co tu więcej pisać?

Wyniosłem z artykułu o Meta, który właśnie poprawiam, ale wymaga znacznego poszerzenia, bo to co oryginalnie wwww napisał, to trochę mało.