ebib 
Nr 5/2010 (114), Ścieżki kariery i rozwoju bibliotekarzy. Badania, teorie, wizje
 poprzedni artykuł następny artykuł   

 


Michał Kuśnierz
Student Instytutu Bibliotekoznawstwa i Informacji Naukowej UMCS w Lublinie

Blind Search – test wyszukiwarek Google, Yahoo!, Bing


Wprowadzenie

Większość użytkowników Internetu przyzwyczaiła się do korzystania tylko z jednej wyszukiwarki - Google. Warto zatem postawić pytanie, czy to najlepsza z dostępnych wyszukiwarek? W artykule Dawida Weissa zatytułowanym Choć na chwilę zdjąć gogle znaleźć można ciekawe informacje na temat wielu lepszych narzędzi. Pomimo znajomości technologii użytkownicy Internetu bardzo często mają problem z wyszukiwaniem informacji - nie wiedzą, gdzie szukać i jak szukać. Niewiele osób zna inne niż popularna Google wyszukiwarki i umie z nich korzystać. Często na różnego rodzaju forach dyskusyjnych można napotkać zwroty typu "guglnij sobie", co oznaczać ma wyszukiwanie. Można powiedzieć, że słowo to weszło już do języka potocznego i "guglanie" stało się synonimem wyszukiwania. Okazuje się, że dla wielu użytkowników proces poszukiwania informacji jest związany z użyciem tej jednej, konkretnej, najpopularniejszej wyszukiwarki, której szerokie możliwości pozostają jednak dla wielu internautów nieznane. Google nieustannie inwestuje w nowe projekty, takie jak:

  • Google Scholar (wyszukiwarka tekstów naukowych),
  • Google Books (wyszukiwarka książek),
  • Google Grafika.

Ilu z użytkowników sieci zdaje sobie z tego sprawę? Zbyt mało[1]. Uważam, że aby uzyskać zadowalające wyniki, należy użyć kilku różnych narzędzi lub dla zaoszczędzenia czasu - multiwyszukiwarki. W artykule tym przedstawiono wyniki testów trzech narzędzi: Google, Yahoo! oraz Bing. Wybrano te trzy systemy wyszukiwania przede wszystkim ze względu na ich popularność. Narzędzie, za pomocą którego przeprowadzono badanie (Blindsearch) umożliwia porównanie tych trzech aplikacji.

Nieco historii

W 1998 r. dwóch doktorantów Uniwersytetu Stanforda - Larry Page i Siergiej Brin - założyło firmę Google Inc. Nikt wówczas nawet się nie spodziewał, że stworzone przez nich oprogramowanie osiągnie taki sukces w przyszłości. Byli oni autorami algorytmu nazwanego później PageRank, który jest rozwinięciem heurystyki. Pomysł polega na nadawaniu wartości liczbowej zindeksowanej stronie zgodnie z jej popularnością w sieci. Wyższy współczynnik oznacza lepszą jakość zindeksowanej strony. Łącząc tę metodę z filozofią wyrażającą się w zaufaniu do tzw. mądrości mas, otrzymuje się Google, która wyświetla wyniki według popularności strony. Z tą filozofią płynnie wiąże się społeczne klasyfikowanie treści, czyli folksonomia - wspólne tagowanie, społeczne indeksowanie czy społeczne klasyfikowanie treści. Zjawisko to polega na dobrowolnym opisywaniu treści z wykorzystaniem słów kluczowych[2]. Podobnie sprawa ma się z Google - mechanizm jej działania polega na tworzeniu rankingów na podstawie liczby kliknięć na link prowadzący do danej strony, co ma być gwarantem jakości i stanowi wyżej wspomnianą mądrość mas.

Twórcami konkurencyjnej wyszukiwarki Yahoo! są David Filo i Jerry Yang, pracownicy Wydziału Inżynierii Elektrycznej Uniwersytetu w Stanford. Swoją działalność zaczęli już w roku 1994. Sama nazwa pochodzi od Yet Another Hierarchical Officius Oracle. Jest to jedna z bardziej znanych wyszukiwarek internetowych, która w pierwotnej wersji była katalogiem stron tworzonym przez specjalistów grupujących adresy internetowe w odpowiednich kategoriach. Katalog ten to taksonomia, definiowana jako [...] nauka o zasadach i metodach klasyfikowania, w szczególności o tworzeniu i opisywaniu jednostek systematycznych (taksonów) i włączaniu ich w układ kategorii taksonomicznych[3]. Folksonomia stanowi przeciwieństwo taksonomii. Sposób działania Yahoo! charakteryzuje się odmienną filozofią niż Google. Podczas działania wyszukiwarka podejmuje decyzję w sprawie każdego dokumentu przez porównanie do zadanej kwerendy. Wyniki wyszukiwania szeregowane są po analizie tekstu strony internetowej, jej tytułu i opisu, a także ich źródła oraz unikalnych cech dokumentu. Sami twórcy podkreślają, że wyniki w rankingach nie są statyczne i ulegają zmianom.

Trzecia z testowanych wyszukiwarek nazywa się Bing, a powstała z portalu MSN, później stanowiła część Windows Live. 1 czerwca 2009 r. w sieci pojawiła się jej wersja testowa, status całkowicie samodzielnej uzyskała 3 czerwca 2009 r. i została uruchomiona w wielu krajach świata (także w Polsce). Została stworzona przez korporację, nie posiada więc konkretnego twórcy. Bing jest rozbudowaną aplikacją internetową o szerokiej gamie usług. Twórcy twierdzą, że [...] automatycznie skanuje (lub przeszukuje) Internet, aby utworzyć i zachować indeks. Indeks jest w rzeczywistości katalogiem dostępnych zasobów online, w tym witryn sieci Web, obrazów, wideo, dokumentów i innych elementów. Poszczególne wyniki wyszukiwania są tworzone za pomocą algorytmu komputerowego w celu dopasowania wyszukiwanych terminów wprowadzonych przez użytkownika do najodpowiedniejszych i najbardziej przydatnych wyników w indeksie. Ogólnie rzecz biorąc, próbujemy dostarczać tak wyczerpujący i użyteczny zbiór informacji online, jak tylko jest to możliwe. Projektujemy algorytmy służące do dostarczania najodpowiedniejszych wyników i określania, które z nich występują w danym wyszukiwaniu[4].

Test - ogólne zasady

Do przeprowadzenia testu użyto aplikacji internetowej Blindsearch (http://blindsearch.fejus.com[5]). Pozwala ona na wyszukanie podanej frazy w trzech wyszukiwarkach jednocześnie. Wyniki wyświetlane są w trzech kolumnach, ale bez wskazania, z których wyszukiwarek pochodzą; informacja ta pojawia się dopiero wówczas, gdy wybierzemy - naszym zdaniem - najlepsze wyniki wyszukiwania (zob. rys. 1).Rys. 1. Blindsearch w trakcie zadawania pytania
Źródło: opracowanie własne na podstawie
Blindsearch [on-line]. [Dostęp 10.06.2010]. Dostępny w World Wide Web:
http://blindsearch.fejus.com/?q=Zamo%C5%9B%C4%87&type=web.Rys. 2. Blindsearch - wyniki wyszukiwania
Źródło: opracowanie własne na podstawie
Blindsearch [on-line]. [Dostęp 10.06.2010]. Dostępny w World Wide Web:
http://blindsearch.fejus.com/?q=Zamo%C5%9B%C4%87&type=web.

W ten sposób, wykorzystując aplikację, która jest dedykowana do tego typu testów, bez manipulacji otrzymuje się kompletne wyniki. Do badań użyto dziesięciu terminów naukowych oraz dziesięciu nazw własnych z Otwartego Słownika Terminologii Naukowej, zawierającego 2406 haseł i dostępnego pod adresem http://biot.ar.szczecin.pl/slownik.php. Losowo wybrane terminy są następujące: deaminacja, mięczaki, paciorkowce, laminina, jezioro estuariowe, pentozanaza, biosynteza, laktoferyna, racicznica oraz wielobok. Nazwy własne to: Mao Zedong, Wola Okrzejska, Word Trade Center, Księstwo Mazowieckie, Batory Stefan, Mexico City, Góra Kościuszki, Iron Maiden, Pałac Kultury i Nauki, Żeromski Stefan oraz Mickiewicz Adam.

Tab. 1. Wyniki wyszukiwania w Yahoo!, Google, Bing
kusnierz3
* Symbol "X" pokazuje najlepsze wyniki w konkretnym systemie wyszukiwania.
Źródło: opracowanie własne.

Oceny jakości wyświetlanych wyników dokonano w sposób subiektywny. Brano pod uwagę cytowane źródła (według tej oceny lepszym źródłem jest np. encyklopedia PWN niż strona anonimowego webmastera), aparat naukowy (przypisy, bibliografia) oraz autoryzację (podpis autora lub jego brak). Wydaje się, że wyniki odzwierciedlają możliwe typowe poszukiwania użytkownika sieci.

Wykr. 1. Wyniki testuŹródło: opracowanie własne.

Interpretacja

Test potwierdza (wykr. 1.), że aby uzyskać satysfakcjonujące wyniki, należy skorzystać z kilku wyszukiwarek. Żadna z nich nie wysuwa się zdecydowanie ponad inne, każda zaś wyświetla wyniki w inny sposób (według innych kryteriów), przez co odpowiedzi na kwerendy są inne. Dlatego każdy z przypadków wyszukiwania należy traktować indywidualnie. Nie można także jednoznacznie stwierdzić, w jakim przypadku lepiej używać konkretnej wyszukiwarki. Jak wiadomo, większość użytkowników korzysta z Google, ale należy pamiętać, że nie jest to optymalna droga poszukiwań.

Istotną rolę mogą odegrać w wyszukiwaniu multiwyszukiwarki[6], takie jak np. Carrot http://project.carrot2.org/ czy Dogpile http://www.dogpile.com/. Carrot wykorzystuje Google, Yahoo! oraz Bing, jest polskim projektem rozwijanym od kilku lat. Dogpile łączy i wyświetla wyniki z Google, Yahoo! Bing oraz Ask Jeeves. Zdecydowaną zaletą multiwyszukiwarek jest łączenie wyników z kilku, często dość odmiennych systemów wyszukiwania, co daje bardzo dobre i zróżnicowane wyniki. Choć korzystają one z baz danych innych wyszukiwarek, to jednak filtrują treść, wybierają najlepsze wyniki i wyświetlają je użytkownikowi. Selekcję wyników można uznać za zaletę, ale również i wadę, ponieważ podczas filtrowania można utracić niektóre wskazania przydatne użytkownikowi. Należy także pamiętać, że duża liczba wyników nie zawsze przekłada się na jakość wyszukiwania. Trafność wyników jest bardzo istotna w wypadku poszukiwania prac naukowych, popularnonaukowych, warto zatem dostrzec coś poza Google.

Przypisy

[1] Statystyka pokazuje, że 96% użytkowników z Polski korzysta z Google. Drugą pozycję zajmuje MSN - około 1,5%. Google to monopolista w kraju. Zachęcam do dokładnej analizy statystyki: Wyszukiwarki silniki. W: Gemius statystyki [on-line]. cop. 2000-2010 Gemius SA. [Dostęp 10.06.2010]. Dostępny w World Wide Web: http://www.ranking.pl/pl/rankings/search-engines.html.

[2] W tym roku Wydawnictwo SBP opublikowało książkę poświęconą problematyce folksonomii, autorstwa kolegi z Instytutu Bibliotekoznawstwa i Informacji Naukowej UMCS - Kamila Stępnia: STĘPIEŃ, K. Folksonomie. Warszawa: Wydaw. SBP, 2010. ISBN 9788361464303.

[3] Taksonomia. W: Wikipedia. Wolna encyklopedia [on-line]. 2001-2010 Fundacja Wikimedia. [Dostęp 10.06.2010]. Dostępny w World Wide Web: http://pl.wikipedia.org/wiki/Taksonomia.

[4] W jaki sposób usługa Bing dostarcza wyniki wyszukiwania. W: Bing: Pomoc [on-line]. 2010 Microsoft [Dostęp 10.06.2010]. Dostępny w World Wide Web: http://help.live.com/help.aspx?project=wl_searchv1&market=pl-PL&querytype=keyword&query=egapemoh&domain=www.bing.com:80#faq6.

[5] Wszystkie podane w tekście odesłania do stron internetowych przedstawiają wersję aktualną w dniu 6.06.2010 r.

[6] Jak podaje definicja, jest to program komputerowy lub strona internetowa zbierająca w jednym miejscu i dająca łatwy dostęp do wielu serwisów wyszukiwawczych. Są wśród nich zarówno strony ogólne, tematyczne, portale oraz same wyszukiwarki. Multiwyszukiwarka. W: Wikipedia. Wolna encyklopedia [on-line]. 2001-2010 Fundacja Wikimedia. [Dostęp 10.06.2010]. Dostępny w World Wide Web: http://pl.wikipedia.org/wiki/Multiwyszukiwarka.

 Początek stronyBlind Search – test wyszukiwarek Google, Yahoo!, Bing / Michał Kuśnierz// W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska - Nr 5/2010 (114) czerwiec/lipiec. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2010. - Tryb dostępu: http://www.ebib.info/2010/114/a.php?kusnierz. - Tyt. z pierwszego ekranu. - ISSN 1507-7187