Google - brak logiki w działaniu

Odpowiedz Nowy wątek
2011-08-07 18:50
0

Zauważyłem dziwaczne działanie wyszukiwarko Google, opiszę je na poniższych przykładach.

Założenia, na których się opieram, oprócz Google tak działa większość innych wyszukiwarek:

  1. Jeżeli wpisze się w wyszukiwarce kilka słów, to wyszukiwarka zwraca strony zawierające wszystkie wpisane słowa.

Przykład:
mono stereo audio
Każda znaleziona strona musi zawierać słowo "mono", słowo "stereo" i słowo "audio".

  1. Wyrażenia ujęte w cudzysłów stanowią nierozerwalną całość i są traktowane jako jedno słowo, np

Przykład:
"telewizor lcd" dvd "full hd"
Każda znaleziona strona musi zawierać łańcuch znaków "telewizor lcd", słowo "dvd" i łańcuch znaków "full hd".

Poniższe sytuacje są sprzeczne z powyższym:

1. Więcej wyników przy zawężonym kryterium

wx net windows linux
zwraca prawie 780 tys stron, a każda z nich, według założeń, zawiera słowa:

  • wx
  • net
  • windows
  • linux
    Rzecz jasna, niektóre z tych stron mogą, ale nie muszą zawierać następującego wyrażenia:
  • mac os

Zawężamy kryterium i robimy taki wpis:
wx net windows linux "mac os"
Oczywiste jest, że teraz stron powinno być mniej, bo przedtem strona nie musiała zawierać słowa "mac os", a teraz każda strona musi zawierać do słowo i wszystkie te, które były wpisane przy poprzednim szukaniu.

Okazuje się, że taki wpis zwraca ponad 72 miliony stron.

Jak dla mnie powody mogą być dwa:
a) za pierwszym razem wyszukiwarka pominęła dużo stron z nieznanego powodu - bezsens, bo skoro czegoś się szuka, to powinno się znaleźć wszystkie strony spełniające podane kryterium
b) za drugim razem zostały wyświetlone strony, które nie zawierają wszystkich wpisanych słów - również bezsens, bo nie po to wpisuje się określone słowa, żeby znajdować strony, które ich nie zawierają

2. Zmiana kolejności słów - zmiana listy wyników

Wpisy:
wx net windows linux
windows wx net linux
są równoważne, bo w obu przypadkach znaczą ni mniej, ni więcej, niż: Wyświetl wszystkie strony, które zawierają jednocześnie następujące słowa: "wx", "net", "linux" i "windows".

Tutaj też mamy sprzeczność, bo w pierwszym przypadku jest prawie 780 tys stron, a w drugim jest prawie 20 milionów, kolejność na liście wyników jest różna.

Ok, załózmy, że chcemy dowiedzieć się na temat biblioteki "wx net" dla Windows i Linux, korygujemy powyższe wpisy:
"wx net" windows linux
windows "wx net" linux
windows linux "wx net"
Za pierwszym razem 8520 stron, za drugim 24100 , a za trzecim razem jest 8530.

Skoro we wszystkich trzech przypadkach wyrażenie znaczy: Wyświetl wszystkie strony, które zawierają jednocześnie następujące słowa: "wx net" (dopuszczalna kropka lub kreska zamiast spacji), "linux" i "windows", to skąd ta rozbieżność w liczbie stron? Albo pojawiają się strony niespełniające kryterium (niezawierające wszystkich wpisanych słów), albo niektóre strony spełniające kryterium nie są wyświetlane.

Co jest przyczyną takiego, a nie innego zachowywania się wyszukiwarki Google?

edytowany 1x, ostatnio: andrzejlisek, 2011-08-07 18:51

Pozostało 580 znaków

2011-08-07 18:57
1

Być może wyświetlone pozycje mają ex-aequo punktację, więc dla różnych zapytań są inaczej łączone wyniki. Google wyżej punktuje też strony na których podane słowa występują w podanej kolejności, tzn są częściowo traktowane tak jakby były w cudzysłowie. Możliwe też że frazy na początku zapytania dostaję większą wagę przy ocenie. A sam licznik wyników to tylko orientacyjna ilość, bo i tak można zobaczyć tylko 1000 pierwszych wyników.


"Programs must be written for people to read, and only incidentally for machines to execute." - Abelson & Sussman, SICP, preface to the first edition
"Ci, co najbardziej pragną planować życie społeczne, gdyby im na to pozwolić, staliby się w najwyższym stopniu niebezpieczni i nietolerancyjni wobec planów życiowych innych ludzi. Często, tchnącego dobrocią i oddanego jakiejś sprawie idealistę, dzieli od fanatyka tylko mały krok."
Demokracja jest fajna, dopóki wygrywa twoja ulubiona partia.

Pozostało 580 znaków

2011-08-13 16:25
0

Jeszcze jedna sprawa:

drone dos pc game 1997

Na pierwszej pozycji jest link: http://en.wikipedia.org/wiki/1997_in_video_gaming

Przejrzałem wszystkie wersje artykułu od stycznia tego roku, na żadnej nie ma słowa "drone", a od stycznia to robot Googla na pewno już wiele razy przeleciał i tą stronę.

Pozostało 580 znaków

2011-08-13 17:06
0

Wystarczy, że w linkach jest słowo "drone". Google w zasadzie opiera się najmocniej na linkach. Kiedyś powszechne było zjawisko "google bomb", np po wpisaniu kłamca, na pierwszym miejscu była strona sejmowa Tuska (być może coś pomyliłem, ale mniej więcej zachowałem sens).


"Programs must be written for people to read, and only incidentally for machines to execute." - Abelson & Sussman, SICP, preface to the first edition
"Ci, co najbardziej pragną planować życie społeczne, gdyby im na to pozwolić, staliby się w najwyższym stopniu niebezpieczni i nietolerancyjni wobec planów życiowych innych ludzi. Często, tchnącego dobrocią i oddanego jakiejś sprawie idealistę, dzieli od fanatyka tylko mały krok."
Demokracja jest fajna, dopóki wygrywa twoja ulubiona partia.

Pozostało 580 znaków

2011-08-13 17:17
0

Jak kojarzę sposób przeszukiwania zasobów od Googla, to:

  • fraza człowiek narodziny próbuje wyszukać strony, które zawierają wszystkie te słowa, potem w kolejności wrzuca też być może te, które zawierają tylko część tych słów (czyli obecność wszystkich słów nie jest obowiązkowa). Dodatkowo możliwe jest, że zamiast tych słów serwer nam podstawi synonimy (edit: również inne formy gramatyczne), np. zamiast człowiek - homo sapiens. Pewnie stosowane są też bardziej złożone algorytmy, próbujące odrzucić najbardziej niepasujące wyniki.
  • fraza +człowiek +narodziny szuka te strony, które zawierają dokładnie te dwa słowa (w dowolnej ilości i kolejności) - ale nie ma już synonimów.
  • fraza "narodziny człowieka" szuka tego wyrażenia.
    I tak dalej...

Not Found
The requested URL /wypasiona_sygnaturka.txt was not found in this brain.
-----
Human/1.0.00 (Earth) Server at Poland Port 65535
edytowany 2x, ostatnio: mnbvcX, 2011-08-13 17:19

Pozostało 580 znaków

2011-08-14 14:26
0
Wibowit napisał(a)

Wystarczy, że w linkach jest słowo "drone". Google w zasadzie opiera się najmocniej na linkach. Kiedyś powszechne było zjawisko "google bomb", np po wpisaniu kłamca, na pierwszym miejscu była strona sejmowa Tuska (być może coś pomyliłem, ale mniej więcej zachowałem sens).

Ja też słyszałem o podobnym zjawisku związanym z pozycjonowaniem, że na hasło "kretyn" na pierwszym miejscu był jakiś polityk czy coś.

Czy miałeś na myśli strony takie jak ta:

<html>
 <head>
 </head>
 <body>
  Jakis tekst <a href="http://en.wikipedia.org/wiki/1997_in_video_gaming">drone</a> jakis tekst.
 </body>
</html>

Oczywiście w tych stronach była dalsza treść, ale napisałem rzecz najważniejszą.

Patrząc dalej:

Czy w taki sposób np. da się wypozycjonować stronę pornograficzną na słowo "nauka" bez modyfikacji treści samej strony?

<html>
 <head>
 </head>
 <body>
  Jakis tekst <a href="adres_strony_porno">nauka</a> jakis tekst.
 </body>
</html>
edytowany 1x, ostatnio: andrzejlisek, 2011-08-14 14:29

Pozostało 580 znaków

2011-08-14 14:55
0

Oczywiście, że się da. Przykładowo wpisałem frazę: lolki maćki fiołki (nie komentować :P ) i na pierwszym miejscu wyskoczyła strona, która ma te słowa tylko i wyłącznie w linkach. Oto zrzut pamięci podręcznej w Google: zrzut (edit: Coyote psuje linki, wpisz sobie frazę w Google sam).

Jest tam jak byk napisane:

To jest kopia z pamięci podręcznej Google adresu http://www.yaacool-uroda.pl/blog/. Zdjęcie przedstawia stan strony z 14 Sie 2011 05:29:07 GMT. Aktualna strona może wyglądać inaczej. Więcej informacji

Wersja tekstowa
Znaleziono tyko w linkach do tej strony: lolki maćki fiołki

Wypozycjonowanie strony porno na słowo "nauka" kiedyś było teoretycznie możliwe, aczkolwiek myślę, że teraz jest sporo mechanizmów moderacji (czy to automatycznych czy też ręcznych), aby np nie kierować dzieci ku stronom pornograficznym, czy też aby nie prowadzić jakichś wrednych anty-kampanii linkowych. Akurat jeśli chodzi o samą erotykę czy pornografię to Google ma filtr SafeSearch, który jest domyślnie włączony.


"Programs must be written for people to read, and only incidentally for machines to execute." - Abelson & Sussman, SICP, preface to the first edition
"Ci, co najbardziej pragną planować życie społeczne, gdyby im na to pozwolić, staliby się w najwyższym stopniu niebezpieczni i nietolerancyjni wobec planów życiowych innych ludzi. Często, tchnącego dobrocią i oddanego jakiejś sprawie idealistę, dzieli od fanatyka tylko mały krok."
Demokracja jest fajna, dopóki wygrywa twoja ulubiona partia.
edytowany 3x, ostatnio: Wibowit, 2011-08-14 14:59

Pozostało 580 znaków

Odpowiedz
Liczba odpowiedzi na stronę

1 użytkowników online, w tym zalogowanych: 0, gości: 1, botów: 0