Szukam jakiegoś skutecznego zabezpieczenia przed pobieraniem danych przez automaty.
Jakieś pomysły ?
Google też się liczy?
Markuz napisał(a):
Google też się liczy?
reCaptcha odpada. :(
Pytam, czy chcesz aby te dane nie były też dostępne dla botów Google.
Markuz napisał(a):
Pytam, czy chcesz aby te dane nie były też dostępne dla botów Google.
Boty Google mam ogarnięte.
Chodzi mi o takie co pobierają dane ze strony i umieszczają na swojej stronie.
Próba blokady IP kończy się uruchomieniem skryptu pod innym adresem.
- Robić strone na api a nie wypluwać czysty html - ktos by musiał pisać bota specjalnie pod twoją strone
- limit requestów na sekunde/minute na dany ip
- zrobić płatny dostep
Możesz utrudnić pobieranie danych ale nie możesz całkowicie uniemożliwić pobierania jeżeli chcesz aby treść była widoczna dla zwykłych użytkowników.
Aby utrudnić pobieranie np. adresu e-mail możesz np.
Zamiast [email protected] renderować <div class="email">4est24es41p</div>
a następnie napisać prosty skrypt w JS który rozkoduje adres e-mail (podmiana t na 4, @ na 2 i . na 1) - to tylko przykład, możesz stosować bardziej zaawansowane algorytmy - ważne też jest żeby odpowiednio ukryć ten algorytm.
Zajmowałem się pisaniem botów przez około 1.5 roku, jak komuś bardzo zależy na pobraniu danych to limit na ip nic nie da - w sieci jest mnóstwo darmowych serwerów proxy.
<?php
// załóżmy że każdy plik ma jakieś id, przekazywane
// w zmiennej $id
if(!eregi("http://twoja.strona/", $_SERVER['HTTP_REFERER']))
die("Bu! Nieładnie kraść!");
switch($_GET['id']){
case '1':
$name = 'tajny_plik.zip';
break;
case '2':
$name = 'tajny_plik2.zip';
break;
default:
die("Zły numer");
}
header("Content-type: application/octet-stream");
header("Content-Disposition: attachment; filename=$name");
readfile("tajny_katalog/$name");
?>
jeśli nazwa tego pliku to download.php to podajesz url "download.php?id=1" (itd...) a do katalogu 'tajny_katalog' kopiujesz pliki które mają być ukryte.
- Nie pluję HTML'em - Ktoś widocznie pisze.
- Chyba jedyny rozsądny pomysł.
- Z założenia strona miała być całkowicie darmowa (bez reklam, koparek i opłat)
@Markuz: Nie chodzi o szyfrowanie strony ale o utrudnienie pobierania skryptom / automatom.
Średnio liczba żądań na minutę to ~200/300 dla jednego skryptu (tendencja rosnąca).
@hopaj: To już mam zrobione.
Problem w tym, że nie każda przeglądarka/skrypt (zależy jak ktoś napisze) wysyła nagłówek REFERER
(z tego co wiem to można wyłączyć wysyłanie go w przeglądarce).
No to obrób tak by to js generował treść, tak jak podał ktoś wyżej. Boty w większości radzą sobie z czystym tekstem a ze skryptami już nie.
Wykorzystywanie JS, HTML, itp. nie jest możliwe.