Własny robot indeksujący

0

Siema
piszę prosto z mostu i nie owijam w bawełne jak napisać własnego robota?
np. jak google?

0

Prosto z mostu:

  1. Pobierasz źródło pierwszej strony (skądś musisz zacząć, nie ma innego wyjścia)
  2. Szukasz na tej stronie wszystkich adresów (albo takich, które są w linkach (<a ... href="link">...</a>), albo wszystkich, gdzieś w tekście)
  3. Zapisujesz te linki w jakiejś tabeli tymczasowej
  4. Na podstawie źródła strony tworzysz indeks (dokładnie jak to realizuje google, że działa tak szybko, tego nikt tutaj nie wie, a nawet jak wie, to nie wolno mu pisać)
  5. Podstawiasz pod adres pierwszej strony pierwszy adres z kolejki (tabeli tymczasowej), po czym usuwasz go z kolejki
  6. Przechodzisz do punktu pierwszego.

Można to oczywiście rozbudowywać o interpretację znaczników specjalnych dla robotów i innyh poleceń, ale to już kwestia tego, co dokładnie potrzebujesz.

A, wyposaż się jeszcze w jakieś kilka TB dysku, na początek wystarczy...

0

Kiedyś budowałem (ale źródeł chyba już nie mam), to dam parę wskazówek:

  • w PHP wszystkie linki ze strony można łatwo uzyskać dzięki klasie Snoopy (http://sourceforge.net/projects/snoopy/)
  • wybieranie ze strony na przykład słów kluczowych z tagu meta łatwo się realiuje poprzez wyrażenia regularne - warto też indeksować słowa kluczowe z tytułu. Podział na słowa jest banalny - w meta dzielisz według przecinków i trim, w tytule dzielisz według spacji.
  • minimalna długość słowa kluczowego powinna wynosić trzy znaki

PS. Google nie jest robotem. Robotem to jest Googlebot.

1 użytkowników online, w tym zalogowanych: 0, gości: 1