Robots.txt
Plik Robots.txt jest pierwszym plikiem sprawdzanym przez robota indeksującego strony.
W tymże pliku spisujemy ustawienia przeznaczone dla robotów, ustawienia te precyzyjnie mówią co ma być a co nie ma być indeksowane.
Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.
Plik taki należy umieścić w głównym katalogu serwisu WWW. Plik robots.txt jest specjalnym dokumentem tekstowym stosującym specjalny protokół - Robots Exclusion Protocol, który pozwala administratorowi strony zablokować dostęp wybranym robotom do określonych plików/folderów na serwerze.
Pole User-agent zawiera informacje na temat tego, jakich robotów (wyszukiwarek) dotyczy dany rekord.
Gwiazdka (*) po User-agent oznajmia, że zakaz dotyczy wszystkich robotów, jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas w miejsce gwiazdki (*) wpisuje się jego nazwę np:
User-agent: googlebot
Pole Disallow określa konkretne foldery i pliki na serwerze, które mogą być pominięte przy indeksacji, należy pamiętać o tym, że nie można tu stosować " * " - trzeba wszystko wypisać np:
Powyższy kod zabrania wszystkim szperaczom czytania zawartości folderu admin, cgi-bin i pliku index.html umieszczonym w folderze temp.
Inne przykłady ograniczeń:
Google nie indeksuje obrazków - pozwala czasami zaoszczędzić transfer , kosztem braku obrazków w google images
Indeksuje wszystko -tak, jak gdyby plik robots.txt byłby pusty lub gdyby nie było go wcale
Nie indeksuj niczego - taki wpis w pliku robots.txt spowoduje, że nasza witryna nie będzie widoczna w wyszukiwarkach
Gulliver nie indeksuje niczego - reszta wszystko
Pozwalamy na indeksacje tylko gulliver'owi
Oto przykładowy plik robots.txt ze strony www.alexa.com:
Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
index - pozwala robotom indeksować stronę
noindex - zapobiega indeksowaniu strony przez roboty
follow - pozwala robotom indeksować strony, do których dotrze poprzez linki w danej witrynie
nofollow - zabrania robotom indeksować stron, do których linki znajdują się w danej witrynie
all - zastępuje "index, follow"
none - zastępuje "noindex, nofollow"
Przykładowy tag ROBOTS wygląda następująco:
W tymże pliku spisujemy ustawienia przeznaczone dla robotów, ustawienia te precyzyjnie mówią co ma być a co nie ma być indeksowane.
Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.
Plik taki należy umieścić w głównym katalogu serwisu WWW. Plik robots.txt jest specjalnym dokumentem tekstowym stosującym specjalny protokół - Robots Exclusion Protocol, który pozwala administratorowi strony zablokować dostęp wybranym robotom do określonych plików/folderów na serwerze.
Przykładowa zawartość pliku robots.txt:
User-agent: * - oznacza jakie roboty mogą czytać ten plik (najlepiej * - wszystkie) Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /temp/index.html - nie zezwalaj na indeksowanie folderów admin, cgi-bin i pliku index.html w folderze temp
Pole User-agent zawiera informacje na temat tego, jakich robotów (wyszukiwarek) dotyczy dany rekord.
Gwiazdka (*) po User-agent oznajmia, że zakaz dotyczy wszystkich robotów, jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas w miejsce gwiazdki (*) wpisuje się jego nazwę np:
User-agent: googlebot
Pole Disallow określa konkretne foldery i pliki na serwerze, które mogą być pominięte przy indeksacji, należy pamiętać o tym, że nie można tu stosować " * " - trzeba wszystko wypisać np:
User-agent: * - oznacza jakie roboty mogą czytać ten plik (najlepiej *) Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /temp/index.html - nie zezwalaj na indeksowanie folderów admin, cgi-bin i pliku index.html w folderze temp
Powyższy kod zabrania wszystkim szperaczom czytania zawartości folderu admin, cgi-bin i pliku index.html umieszczonym w folderze temp.
Inne przykłady ograniczeń:
Google nie indeksuje obrazków - pozwala czasami zaoszczędzić transfer , kosztem braku obrazków w google images
User-agent: Googlebot-Image Disallow: /obrazki/
Indeksuje wszystko -tak, jak gdyby plik robots.txt byłby pusty lub gdyby nie było go wcale
User-agent: * Disallow:
Nie indeksuj niczego - taki wpis w pliku robots.txt spowoduje, że nasza witryna nie będzie widoczna w wyszukiwarkach
User-agent: * Disallow: /
Gulliver nie indeksuje niczego - reszta wszystko
User-agent: gulliver Disallow: /
Pozwalamy na indeksacje tylko gulliver'owi
User-agent: gulliver Disallow: User-agent: * Disallow: /
Oto przykładowy plik robots.txt ze strony www.alexa.com:
# The crawlers listed below are allowed on the Alexa site. # Alexa allows other crawlers on a case by case basis. # Send requests to frontdesk@alexa.com. # # Alexa provides access to traffic ranking data via Amazon Web Services. # More information here: <URL: http://www.amazon.com/gp/browse.html/?node=12920391> User-agent: googlebot Disallow: /search User-agent: gulliver Disallow: /search User-agent: slurp Disallow: /search User-agent: fast Disallow: /search User-agent: scooter Disallow: /search User-agent: vscooter Disallow: /search User-agent: ia_archiver Disallow: /search User-agent: Nutch Disallow: /search User-agent: FAST-WebCrawler Disallow: /search User-agent: teoma_agent1 Disallow: /search User-agent: Lycos_Spider_(T-Rex) Disallow: /search User-agent: MSNBOT/0.1 Disallow: /search User-agent: ArchitextSpider Disallow: /search User-agent: ZyBorg Disallow: /search User-agent: SurveyBot Disallow: /search /# Disallow all other crawlers User-agent: * Disallow: /
Zakaz dostępu do pliku
Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
index - pozwala robotom indeksować stronę
noindex - zapobiega indeksowaniu strony przez roboty
follow - pozwala robotom indeksować strony, do których dotrze poprzez linki w danej witrynie
nofollow - zabrania robotom indeksować stron, do których linki znajdują się w danej witrynie
all - zastępuje "index, follow"
none - zastępuje "noindex, nofollow"
Przykładowy tag ROBOTS wygląda następująco:
<META NAME="robots" CONTENT="index, follow" > Kategoria: (X)HTML
2 komentarze
Wyniosłem z artykułu o Meta, który właśnie poprawiam, ale wymaga znacznego poszerzenia, bo to co oryginalnie wwww napisał, to trochę mało.
Ale co tu więcej pisać?