Własny robot indeksujący

Odpowiedz Nowy wątek
2006-10-03 14:56

Rejestracja: 13 lat temu

Ostatnio: 12 lat temu

0

Siema
piszę prosto z mostu i nie owijam w bawełne jak napisać własnego robota?
np. jak google?

Pozostało 580 znaków

2006-10-03 16:17

Rejestracja: 16 lat temu

Ostatnio: 9 lat temu

0

Prosto z mostu:
1) Pobierasz źródło pierwszej strony (skądś musisz zacząć, nie ma innego wyjścia)
2) Szukasz na tej stronie wszystkich adresów (albo takich, które są w linkach (<a ... href="link">...</a>), albo wszystkich, gdzieś w tekście)
3) Zapisujesz te linki w jakiejś tabeli tymczasowej
4) Na podstawie źródła strony tworzysz indeks (dokładnie jak to realizuje google, że działa tak szybko, tego nikt tutaj nie wie, a nawet jak wie, to nie wolno mu pisać)
5) Podstawiasz pod adres pierwszej strony pierwszy adres z kolejki (tabeli tymczasowej), po czym usuwasz go z kolejki
6) Przechodzisz do punktu pierwszego.

Można to oczywiście rozbudowywać o interpretację znaczników specjalnych dla robotów i innyh poleceń, ale to już kwestia tego, co dokładnie potrzebujesz.

A, wyposaż się jeszcze w jakieś kilka TB dysku, na początek wystarczy...


Grunt to uziemienie...

Pozostało 580 znaków

2006-10-03 16:32
Moderator

Rejestracja: 17 lat temu

Ostatnio: 10 godzin temu

0

Kiedyś budowałem (ale źródeł chyba już nie mam), to dam parę wskazówek:

  • w PHP wszystkie linki ze strony można łatwo uzyskać dzięki klasie Snoopy (http://sourceforge.net/projects/snoopy/)
  • wybieranie ze strony na przykład słów kluczowych z tagu meta łatwo się realiuje poprzez wyrażenia regularne - warto też indeksować słowa kluczowe z tytułu. Podział na słowa jest banalny - w meta dzielisz według przecinków i trim, w tytule dzielisz według spacji.
  • minimalna długość słowa kluczowego powinna wynosić trzy znaki

PS. Google nie jest robotem. Robotem to jest Googlebot.

Pozostało 580 znaków

Odpowiedz

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0