Wątek przeniesiony 2023-01-23 20:44 z Webmastering przez Riddle.

Zablokowanie robota

0

Mam definicje blokujące roboty i indeksy, a mimo to, zaczął mnie regularnie nawiedzać robot search.msn.com.

2023-01-23  -- 19:15:09 -- 157.55.39.87 -- msnbot-157-55-39-87.search.msn.com -

Jak można się go pozbyć i zablokować mu dostęp do strony? nie życzę sobie tego aby wchodził na moją stronę. Nie po to jej nie indeksuje w internecie aby się kręciły tam takie roboty.

0

Mam definicje blokujące roboty i indeksy

Czyli co dokładnie?

0
ortoraf napisał(a):

Jak można się go pozbyć i zablokować mu dostęp do strony? nie życzę sobie tego aby wchodził na moją stronę. Nie po to jej nie indeksuje w internecie aby się kręciły tam takie roboty.

No, niektórych rzeczy nie możesz zablokować. np request taki robot zawsze może wykonać do Twojej strony, pytanie na którym poziomie odeślesz (lub nie odeślesz) response i nie przekażesz tego żądania dalej.

0

to log z webserwera czy z jakiejś innej aplikacji?

1

To odłącz stronę od internetu to żadne boty nie będą tam latać :)

2

Ciekawi mnie dlaczego chcesz go zablokować? MSN jest raczej spokojny. To nie to co AHrefs co początku swojej działalności potrafił przywalić 25 requestów na sekundę.

Na prawie pół miliona requestów jest tylko 50 000 z Microsoftu (ruch z różnych domen); Poza tym oni też aktywują się sezonowo raz bardziej raz mniej... Może chwilowo są bardziej pazerni... Dla jednej popularniejszej domeny mam 7000 / na dobę. To tylko 4 reqesty na min...
Do tego przypuszczam, że pod ich USER_AGENT podszywają się jeszcze inne boty...

screenshot-20230123215431.png

Ale jeśli faktycznie Ci szkodzi to ja na szybko blokowałem za pomocą .htaccess:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} .*(AhrefsBot|Yandex|IstellaBot|Baiduspider|SISTRIX|crawl|MJ12bot).*$ [NC] 
RewriteRule  .* - [R=410,L]
0

@katakrowa:

500 Internal Server Error

po wpisaniu tego co dałeś.

mam taki plik:

<Files 403.shtml>
order allow,deny
allow from all
</Files>

php_value session.cookie_lifetime 2592000
php_value session.gc_maxlifetime 2592000

AddHandler application/x-httpd-php55 .php #wersja_php_generowane_automatycznie

RewriteEngine On
RewriteCond %{HTTPS} !=on
RewriteRule ^ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]

# php -- BEGIN cPanel-generated handler, do not edit
# Set the “alt-php71” package as the default “PHP” programming language.
<IfModule mime_module>
  AddHandler application/x-httpd-alt-php71___lsphp .php .php7 .phtml
</IfModule>
# php -- END cPanel-generated handler, do not edit


RewriteCond %{HTTP_USER_AGENT} .*(AhrefsBot|Yandex|IstellaBot|Baiduspider|SISTRIX|crawl|MJ12bot).*$ [NC] 
RewriteRule  .* - [R=410,L]

Po dodaniu na dole Twojej reguły strona nie działa.

Powtórzenie: RewriteEngine On nic nie zmienia.

1 użytkowników online, w tym zalogowanych: 0, gości: 1