Zauważyłem dziwaczne działanie wyszukiwarko Google, opiszę je na poniższych przykładach.
Założenia, na których się opieram, oprócz Google tak działa większość innych wyszukiwarek:
- Jeżeli wpisze się w wyszukiwarce kilka słów, to wyszukiwarka zwraca strony zawierające wszystkie wpisane słowa.
Przykład:
mono stereo audio
Każda znaleziona strona musi zawierać słowo "mono", słowo "stereo" i słowo "audio".
- Wyrażenia ujęte w cudzysłów stanowią nierozerwalną całość i są traktowane jako jedno słowo, np
Przykład:
"telewizor lcd" dvd "full hd"
Każda znaleziona strona musi zawierać łańcuch znaków "telewizor lcd", słowo "dvd" i łańcuch znaków "full hd".
Poniższe sytuacje są sprzeczne z powyższym:
1. Więcej wyników przy zawężonym kryterium
wx net windows linux
zwraca prawie 780 tys stron, a każda z nich, według założeń, zawiera słowa:
- wx
- net
- windows
-
linux
Rzecz jasna, niektóre z tych stron mogą, ale nie muszą zawierać następującego wyrażenia: - mac os
Zawężamy kryterium i robimy taki wpis:
wx net windows linux "mac os"
Oczywiste jest, że teraz stron powinno być mniej, bo przedtem strona nie musiała zawierać słowa "mac os", a teraz każda strona musi zawierać do słowo i wszystkie te, które były wpisane przy poprzednim szukaniu.
Okazuje się, że taki wpis zwraca ponad 72 miliony stron.
Jak dla mnie powody mogą być dwa:
a) za pierwszym razem wyszukiwarka pominęła dużo stron z nieznanego powodu - bezsens, bo skoro czegoś się szuka, to powinno się znaleźć wszystkie strony spełniające podane kryterium
b) za drugim razem zostały wyświetlone strony, które nie zawierają wszystkich wpisanych słów - również bezsens, bo nie po to wpisuje się określone słowa, żeby znajdować strony, które ich nie zawierają
2. Zmiana kolejności słów - zmiana listy wyników
Wpisy:
wx net windows linux
windows wx net linux
są równoważne, bo w obu przypadkach znaczą ni mniej, ni więcej, niż: Wyświetl wszystkie strony, które zawierają jednocześnie następujące słowa: "wx", "net", "linux" i "windows".
Tutaj też mamy sprzeczność, bo w pierwszym przypadku jest prawie 780 tys stron, a w drugim jest prawie 20 milionów, kolejność na liście wyników jest różna.
Ok, załózmy, że chcemy dowiedzieć się na temat biblioteki "wx net" dla Windows i Linux, korygujemy powyższe wpisy:
"wx net" windows linux
windows "wx net" linux
windows linux "wx net"
Za pierwszym razem 8520 stron, za drugim 24100 , a za trzecim razem jest 8530.
Skoro we wszystkich trzech przypadkach wyrażenie znaczy: Wyświetl wszystkie strony, które zawierają jednocześnie następujące słowa: "wx net" (dopuszczalna kropka lub kreska zamiast spacji), "linux" i "windows", to skąd ta rozbieżność w liczbie stron? Albo pojawiają się strony niespełniające kryterium (niezawierające wszystkich wpisanych słów), albo niektóre strony spełniające kryterium nie są wyświetlane.
Co jest przyczyną takiego, a nie innego zachowywania się wyszukiwarki Google?