Siema
piszę prosto z mostu i nie owijam w bawełne jak napisać własnego robota?
np. jak google?
0
0
Prosto z mostu:
- Pobierasz źródło pierwszej strony (skądś musisz zacząć, nie ma innego wyjścia)
- Szukasz na tej stronie wszystkich adresów (albo takich, które są w linkach (<a ... href="link">...</a>), albo wszystkich, gdzieś w tekście)
- Zapisujesz te linki w jakiejś tabeli tymczasowej
- Na podstawie źródła strony tworzysz indeks (dokładnie jak to realizuje google, że działa tak szybko, tego nikt tutaj nie wie, a nawet jak wie, to nie wolno mu pisać)
- Podstawiasz pod adres pierwszej strony pierwszy adres z kolejki (tabeli tymczasowej), po czym usuwasz go z kolejki
- Przechodzisz do punktu pierwszego.
Można to oczywiście rozbudowywać o interpretację znaczników specjalnych dla robotów i innyh poleceń, ale to już kwestia tego, co dokładnie potrzebujesz.
A, wyposaż się jeszcze w jakieś kilka TB dysku, na początek wystarczy...
0
Kiedyś budowałem (ale źródeł chyba już nie mam), to dam parę wskazówek:
- w PHP wszystkie linki ze strony można łatwo uzyskać dzięki klasie Snoopy (http://sourceforge.net/projects/snoopy/)
- wybieranie ze strony na przykład słów kluczowych z tagu meta łatwo się realiuje poprzez wyrażenia regularne - warto też indeksować słowa kluczowe z tytułu. Podział na słowa jest banalny - w meta dzielisz według przecinków i trim, w tytule dzielisz według spacji.
- minimalna długość słowa kluczowego powinna wynosić trzy znaki
PS. Google nie jest robotem. Robotem to jest Googlebot.