Nr 2/2005 (63), Dostęp do informacji. Artykuł |
Maciej Weryho
| |||
Dzisiaj trudno już sobie wyobrazić pracę w sieci WWW bez używania któregokolwiek z dostępnych powszechnie narzędzi wyszukiwawczych. Obok katalogów są to przede wszystkim różnego rodzaju wyszukiwarki, od których zdecydowana większość użytkowników Internetu rozpoczyna poszukiwanie jakichkolwiek informacji. W sieci, na tysiącach serwerów rozsianych po całym świecie, takich narzędzi pracuje już ogromna ilość, poczynając od skromnych, specjalistycznych, wyszukujących wyłącznie dokumenty określonego formatu bądź z jednej dziedziny wiedzy, po ogromnie popularne serwisy wyszukiwawcze czy portale oferujące prócz możliwości wyszukiwania wszelkiego typu informacji także całą gamę różnorodnych usług i wiadomości. Ogólne zasady działania dostępnych w sieci wyszukiwarek są dosyć podobne. Każda z nich, prócz multiwyszukiwarek, gromadzi własną bazę danych, z której zasobów pochodzą informacje wyświetlane użytkownikowi w odpowiedzi na zadane przez niego pytanie. Bazy te zasilane są materiałami, które nieustannie gromadzą i aktualizują krążące po sieci tzw. szperacze, czyli roboty indeksujące. Procesor zapytań wyszukiwarki analizuje instrukcję wyszukiwawczą, którą użytkownik wpisuje w oknie poleceń, porównuje ją z danymi zgromadzonymi w bazie i przedstawia listę odpowiedzi. Jednakże korzystając z różnych wyszukiwarek otrzymujemy mniej lub bardziej różne wyniki na identycznie zadane pytanie. Wynika to z wielu odmiennie rozwiązanych elementów specyficznych dla danego serwisu, takich jak np.: rodzaj indeksowanych dokumentów, sposób analizowania ich zawartości, klasyfikacja, częstotliwość aktualizacji danych czy też sposób prezentowania odpowiedzi, które w sumie znacznie różnicują sposób pracy każdego z nich. Google - skuteczna droga do zasobów sieciKażdego dnia użytkownicy Internetu kierują do serwisów wyszukiwawczych ponad 700 mln pytań, z czego zdecydowana większość wykorzystuje w tym celu Google. W chwili obecnej jest ona zdecydowanie najpopularniejszą wyszukiwarką na świecie. Sukces ten jest niewątpliwie wynikiem wielu czynników, w tym także związanych z modą czy aktualnie panującym trendem wśród użytkowników globalnej sieci. Jednak przede wszystkim wynika on z oryginalnych rozwiązań technologicznych, wykorzystywanych przez projektantów serwisu, które powodują, że obszar zasobów indeksowanych przez Google jest coraz większy, a stopień relewantności, czyli zgodność uzyskanych wyników z instrukcją wyszukiwawczą, stosunkowo wysoki. Od podobnych narzędzi działających w sieci Google wyróżnia wiele odmiennie rozwiązanych elementów: googleboty, czyli roboty odpowiedzialne za gromadzenie informacji, wyposażone są w programy indeksujące nie tylko standardowe strony WWW, ale także dokumenty publikowane w innych formatach, jak: Adobe Acrobat PDF, Adobe Postscript, Microsoft Excel, Word, PowerPoint czy Rich Text Format. W przypadku gdy użytkownik nie posiada zainstalowanego na swoim komputerze odpowiedniego oprogramowania do odczytu wybranego dokumentu, Google udostępnia funkcję "View as HTML", która konwertuje dany materiał na format strony internetowej. Programy analizujące treść znalezionych w sieci WWW dokumentów, uwzględniają wyłącznie informacje przeznaczone dla użytkowników, czyli ich rzeczywistą zawartość, ignorując zupełnie dane zawarte w tytule czy znacznikach meta. Dzięki temu użytkownik Google jest w znacznie mniejszym stopniu narażony na wszelkiego rodzaju manipulacje i oszustwa redaktorów stron internetowych, którzy nieustannie próbują wprowadzać w błąd roboty indeksujące poprzez nieuczciwą charakterystykę publikowanych dokumentów, dodawanie fałszywych słów kluczowych czy cloaking, czyli tworzenie alternatywnych, odpowiednio spreparowanych stron przeznaczonych wyłącznie dla robotów indeksujących. Specyfiką wyszukiwarki Google jest także PageRank, oryginalny system pomiaru jakości strony. Parametr ten określa pozycję danej witryny w rankingu wyświetlanych odpowiedzi. Obliczany jest na podstawie struktury hipertekstowych powiązań między dokumentami publikowanymi w sieci WWW. Jego istota wywodzi się z doświadczeń świata nauki, gdzie wartość danej publikacji określana jest m.in. ilością cytowań. Najwyższy więc wskaźnik PageRank osiągają te dokumenty, do których kieruje najwięcej odsyłaczy, linków. Przy czym istotna jest nie tyle sama ilość połączeń, co wartość PageRank strony, która owe linki zawiera. Dzięki temu parametr ten jest odporny na różne próby manipulacji i sztucznego podnoszenia jego wartości. Eliminuje materiały zbędne, mało wartościowe, a użytkownik otrzymuje w pierwszej kolejności dokumenty w najwyższym stopniu relewantne. Przybliżone wartości PageRank każdej indeksowanej przez Google strony prezentowane są na pasku narzędzi. Jest to bezpłatnie udostępniana aplikacja dla przeglądarki Internet Explorer, która umożliwia korzystanie z funkcji wyszukiwawczych serwisu bez potrzeby otwierania jego strony macierzystej. Oferuje także wiele opcji dodatkowych, niedostępnych ze strony głównej. Oczywiście podobnie jak inne wyszukiwarki pracujące w sieci, Google oferuje swoim użytkownikom możliwość redagowania zaawansowanych instrukcji wyszukiwawczych. W przypadku tego właśnie narzędzia jest to szczególnie istotne, gdyż w chwili obecnej posiada w swojej bazie już ponad osiem mln zindeksowanych stron. Aby ograniczyć wynik wyszukiwania do wyselekcjonowanych informacji, można określić różne warunki, które będą stanowiły kryterium procesu wyszukiwania. Prócz standardowych znaków specjalnych czy algebry Boole'a, Google umożliwia także poszukiwania informacji zawartych jedynie w określonej części publikowanych dokumentów (w tytule, odsyłaczach czy tekście zasadniczym), dokumentów określonego typu (np. PDF, Powerpoint.) czy też zindeksowanych w określonym przedziale czasu. Z kolei procesor zapytań analizuje każdy redagowany przez użytkowników tekst pod kątem jego poprawności gramatycznej. W przypadku wystąpienia ewentualnego błędu sugeruje poprawną wersję bądź od razu, jeżeli w swojej bazie nie posiada dokumentów spełniających dane kryterium, modyfikuje błąd i prezentuje listę odpowiedzi. Google umożliwia także prowadzenie poszukiwań w zbiorach katalogu Open Directory Project, czyli zasobach selekcjonowanych i klasyfikowanych przez redaktorów - wolontariuszy z całego świata, którzy czuwają nad aktualizacją i jakością przechowywanych w nim witryn. Wykorzystuje jednak własny mechanizm sortowania danych w obrębie określonej kategorii. Na podstawie częstotliwości odwiedzin danej witryny specjalny algorytm oblicza dla niej wartość PageRank, która jest prezentowana w postaci graficznego paska obok każdej z pozycji na liście wyników. Google Scholar - źródło informacji naukowej"Stand on the shoulders of giants", taki napis widnieje na stronie głównej wyszukiwarki Google Scholar, nowej usługi, jaką firma Google udostępniła w listopadzie 2004 r.[1] Cytat ten, pochodzący ze słynnej wypowiedzi Isaaka Newtona[2], wskazuje wyraźnie przeznaczenie serwisu: zaprojektowany został przede wszystkim z myślą o pracownikach świata nauki, by służyć im jako narzędzie umożliwiające w maksymalnie prosty, szybki i skuteczny sposób korzystać z zasobów dostępnych on-line w swojej pracy. Zadaniem Google Scholar jest wyszukiwanie, sortowanie i udostępnianie użytkownikom wyłącznie materiałów o charakterze naukowym i dydaktycznym. W tym celu opracowany został zupełnie nowy algorytm wyszukiwania, który umożliwia precyzyjną selekcję i analizę znalezionych materiałów. Indeksuje wszelkiego rodzaju publikacje akademickie: książki, artykuły, streszczenia, reprinty czy raporty techniczne z wszystkich dziedzin nauki. Wyspecjalizowane roboty przeszukują zasoby instytutów naukowych, sieci uniwersyteckich i różnorakich witryn specjalistycznych, tworząc w ten sposób wyselekcjonowaną bazę danych. Ponadto każdy z nich wyposażony został w odpowiedni program umożliwiający szczegółową analizę odnalezionych materiałów. Dzięki temu wszystkie cytaty, przypisy czy jakiekolwiek informacje bibliograficzne zawarte w danym tekście zostają z niego wyodrębnione i odpowiednio sklasyfikowane. W efekcie Google Scholar indeksuje w swojej bazie także i te materiały, które w ogóle nie są dostępne on-line w pełnym tekście. Gdy taka pozycja pojawia się na liście wyników, wzbogacona jest wówczas o łącza: Library Search - które prowadzi do katalogów bibliotek zawierających poszukiwany dokument, przy czym najwyższe pozycje wśród wyników zajmują biblioteki znajdujące się najbliżej użytkownika, oraz Web Search- który z kolei wiedzie na stronę księgarni posiadającej w swojej ofercie tę właśnie pozycję. Wszystkie cytaty i dane bibliograficzne, jakie zawiera dany dokument, nawet jeżeli nie występują w postaci hipertekstowych łącz, także wpływają na miejsce, jakie osiągnie on w rankingu prezentowanych odpowiedzi. Specjalny algorytm rankingowy (używany przez Google dla Google Scholar) umożliwia, dzięki szczegółowej analizie każdego dokumentu, prezentację najlepszych wyników na górze listy. Przedstawiciele firmy Google nawiązali także współpracę z wydawcami komercyjnych baz i zasobów elektronicznych, w wyniku czego Google Scholar uzyskał dostęp do tych materiałów, które dla indywidualnych użytkowników sieci WWW są niedostępne, niewidzialne. Wymagają nabycia subskrypcji i chronione są odpowiednim hasłem dostępu. Dzięki temu użytkownicy serwisu mają dostęp do znacznie bogatszych zasobów informacji oraz łatwiej mogą zlokalizować określony materiał. Oczywiście pełne teksty nadal dostępne są tylko subskrybentom, dla użytkowników Google Scholar dostępne są natomiast informacje bibliograficzne oraz abstrakty. Jest to jedno z wymagań stawianych przez Google względem wydawców w podpisanej przez obie strony umowie[3]. Gdy jednak użytkownik pragnie dotrzeć do pełnego tekstu dokumentu, wyszukiwarka, poprzez łącze Library Search wskazuje najbliższą bibliotekę akademicką jako miejsce dostępu bądź sugeruje kupno publikacji bezpośrednio od wydawcy. Materiały, które Google Scholar gromadzi, w dużym stopniu nie były uwzględniane nie tylko przez standardową wersję serwisu, ale także przez funkcjonujące już w sieci specjalistyczne narzędzia do wyszukiwania informacji naukowych, jak choćby popularny Scirus czy SciSeek.
Naukowy charakter nowej wyszukiwarki podkreśla także brak reklam wśród prezentowanych wyników. Każda pozycja zawiera natomiast podstawowe dane bibliograficzne: tytuł publikacji, autor, tytuł czasopisma, z jakiego pochodzi artykuł, wydawca, rok wydania, format, w jakim jest zapisana, oraz adres dostępu. W przypadku gdy określony dokument dostępny jest na kilku serwerach, wówczas Google Scholar prezentuje wersję optymalną oraz zamieszcza linki do wersji pozostałych. Prócz tego dostępna jest także funkcja "Cited by", która pozwala sprawdzić, kto daną pozycję cytował. Umieszczona po każdej indeksowanej pozycji umożliwia od razu wyświetlenie wszystkich tekstów dostępnych on-line, które dany artykuł cytują bądź w jakikolwiek sposób się do niego odnoszą. Oczywiście Google Scholar umożliwia ponadto swoim użytkownikom redagowanie bardziej precyzyjnej kwerendy i zawężanie obszaru poszukiwań poprzez wykorzystywanie różnych form wyszukiwania zaawansowanego, jak np.:
W chwili obecnej wyszukiwarka Google Scholar dostępna jest w wersji beta, czyli fazie testowej. W okresie tym prowadzone są badania i obserwacje mające wykazać stopień zainteresowania nowym narzędziem oraz ujawnić jego ewentualne braki, słabości czy elementy wymagające dalszej modyfikacji. Każdy z użytkowników może sam ocenić pracę wyszukiwarki i przekazać swoje uwagi czy oczekiwania projektantom serwisu. Gigant GooglePoczątki wyszukiwarki Google to 1996 rok, kiedy to dwaj studenci Uniwersytetu w Stanford: Larry Page i Sergey Brin rozpoczęli pracę nad projektem BackRub, narzędziem wyszukiwawczym, którego centrum stanowił wówczas studencki pokój. Obecnie jest to już ogromna firma, która zatrudnia 1900 osób, w tym, prócz fachowców od marketingu i finansów, przede wszystkim profesjonalnych informatyków i programistów, którzy nieustannie pracują nad udoskonalaniem ogromnej ilości rozbudowanych algorytmów i poszukiwaniem nowych pomysłów i rozwiązań technologicznych. Stanowią one szczególnie mechanizm obliczania wartości PageRank, pilnie strzeżone patentami tajemnice Google. Także reklama, obecna na każdej stronie z listą wyników i dobierana na podstawie słów kluczowych adekwatnie do ich treści, wpisana jest w oryginalną konwencję serwisu. Zamiast kolorowych, krzykliwych bannerów, wdzierających się nachalnie przed oczy użytkownika, wykorzystywana jest funkcja AdWord, czyli wyłącznie krótki, skromny tekst stanowiący hiperłącze na stronę reklamodawcy. Reklamy te wyświetlane są nie tylko na stronach wyszukiwarki, ale także na wielu innych należących do sieci Google, która jest obecnie największą siecią reklamową on-line. Wbrew pozorom system ten doskonale spełnia swoje zadanie, bowiem reklama właśnie stanowi podstawowe źródło dochodu firmy, i to dochodów niebagatelnych. Jej wartość amerykańska giełda oceniła na 40 mld dolarów[4]. Specyfiką serwisu jest również jego szata graficzna: skromna, przejrzysta, wręcz nieco ascetyczna. W pełni zachowana została konwencja wyszukiwarki, mimo że obecnie Google to już właściwie prawdziwy portal z coraz szerszą paletą różnorodnych ofert. Każda z nich stanowi swoisty podserwis, który posiada własną, odrębną stronę, nieco tylko odmienną graficznie od macierzystej, np.:
Przypisy:[1] Google Scholar [on-line]. [dostęp]. Dostępny w World Wide Web: http://scholar.google.com/. [2] "Jeżeli widziałem dalej niż inni, to dlatego, że stałem na ramionach gigantów". Tym stwierdzeniem Newton wyraził swoje uznanie i wdzięczność wielkim uczonym: Galileuszowi, Kopernikowi czy Keplerowi, z których wiedzy i doświadczenia korzystał w swojej pracy. [3] SULLIVAN, D. Google Scholar Offers Access To Academic Information. SearchEngineWatch [on-line]. [dostęp 18 listopada 2004]. Dostępny w World Wide Web: http://searchenginewatch.com/searchday/article.php/3437471. [4] BENDYK, E. Do you Google? In Polityka [on-line]. 2004 nr 33 (2465) [dostęp 14 października 2004]. Dostępny w World Wide Web: http://polityka.onet.pl/162,1180266,1,0,2465-2004-3,artykul.html. [5] http://www.google.com/options/universities.html. [6] http://www.google.pl/linux. [7] http://catalogs.google.com/. [8] http://www.google.com/webhp?complete=1&hl=en. |
| |||