Jakie dzisiaj stosuje się sposoby na zabezpieczenie strony przed skanowaniem? Skupmy się na tym, co może zrobić zwykły programista żeby bota wykryć i zablokować.
Doładowywanie danych przez JS raczej odpada - boty oparte o przeglądarki potrafią to ominąć, a takie dodatkowe requesty tylko podnoszą obciążenie strony.
Stare metody wykrywania botów poprzez dodawanie ukrytych elementów na stronie, sprawdzania headerów etc., już dawno przestały być aktualne.
Odpowiadając na pytania z góry: tak, chcę coś takiego zrobić u siebie. W sumie to całe scrapowanie mógłbym zignorować gdyby nie to że boty nie znają żadnego umiaru, walą ogromne ilości requestów na sekundę i ruch wygenerowany przez nie na stronie jest znacznie wyższy od normalnego i podnosi obciążenie serwera do niebezpiecznego poziomu. Tak że moja cierpliwość się wyczerpała, a ręczne blokowanie zakresów adresów IP to mrówcza robota.