Nr 7/2004 (58), Jednoosobowe zarządzanie biblioteką. Badania, teorie, wizje

Natalia Pamuła-Cieślak
Instytut Informacji Naukowej i Bibliologii UMK
Toruń

Ukryty Internet – jeśli nie wyszukiwarka, to co?

Terminologia i zawartość

Ukryty Internet (ang. Invisible Web) to termin, który jest niezwykle trudny do zdefiniowania. Nie jest to bowiem żaden konkretny twór, nie ma również specyficznej lokalizacji w globalnej sieci. Jednakże termin ten pojawił się w literaturze i Internecie właśnie dlatego, że w praktyce wyszukiwania informacji okazało się, iż strony, które są wyszukiwalne przez wyszukiwarki internetowe, stanowią zaledwie jedną pięćsetną całkowitych zasobów Internetu. Trzeba było więc to zjawisko jakoś nazwać.

Definiuje się Ukryty Internet jako strony tekstowe, pliki lub inne, zwykle bardzo wartościowe merytorycznie, informacje dostępne poprzez sieć WWW, których nie indeksują i nie wyszukują wyszukiwarki internetowe (ang. public search engines). Czasem zasoby te nazywane są także Deep Web (Głęboka Sieć) bądź też "dark matter" (ciemna materia). Zasoby "sieci widzialnej" i "niewidzialnej" nie różnią się tylko obecnością bądź nieobecnością w bazach wyszukiwarek. Sieć "widzialna" to materiały, które nie podlegają często kontroli merytorycznej, językowej i bibliograficznej; wiele do życzenia pozostawia także ich aktualność. Jest to spowodowane faktem, że tak naprawdę każdy użytkownik sieci WWW może w niej umieścić jakąkolwiek informację w formie strony internetowej. Koszt finansowy dostępu do takich zasobów jest bardzo niski lub żaden. Ukryty Internet to w większości różnorodne bazy danych, archiwa, serwisy on-line zorganizowane w postaci hierarchicznej struktury, w których dane są prawidłowo zaindeksowane. W zasobach tych znajdują się informacje pod kontrolą specjalistów dziedzinowych, profesjonalne - zgodne z zasadami języka i stanem badań oraz z zachowaniem praw autorskich. Dlatego też często (aczkolwiek nie zawsze) zasoby pozyskane poprzez Ukryty Internet są płatne. Ale to właśnie tu można odnaleźć pełnotekstowe przeglądy czasopism naukowych, zarchiwizowane artykuły z prasy codziennej, abstrakty naukowe, archiwa grup dyskusyjnych, fachowe słowniki i encyklopedie, obrazy, pliki audio i wideo, pliki graficzne, programy oraz bazy teleadresowe. Właśnie w Ukrytym Internecie istnieją takie źródła informacji, jak Dialog, LexisNexis, Dow - Jones News Retrieval. Zawartość tematyczna Głębokiej Sieci to:

humanistyka - 13,5%
wiadomości, media - 12,2%
informatyka, sieci komputerowe - 6,9%
sztuka - 6,6%
biznes - 5,9%
zdrowie - 5,5%
ludzie - 4,9%
edukacja - 4,3%
praca, zatrudnienie - 4,1%
nauki ścisłe - 4%
styl życia - 4%
prawo - 3,9%
rząd, polityka - 3,9%
sport i rekreacja - 3,5%
podróże - 3,4%
zakupy - 3,2%
technika - 3,1%
rolnictwo - 2,7%
inne - 4,4%

Dlaczego istnieje Ukryty Internet?

Przyczyn jest kilka, a większość z nich wiąże się z budową mechanizmów wyszukująco-indeksujących w wyszukiwarkach internetowych. Wyszukiwarki zbierają strony do zaindeksowania metodą wędrówki po łączach hipertekstowych. Połączone siecią odnośników strony tworzą twór zwany grafem. Ponieważ struktura grafu nigdy nie jest dokładnie znana, nie można opracować algorytmu, który niezawodnie wyszuka i zaindeksuje wszystkie witryny internetowe. Roboty obsługujące poszczególne wyszukiwarki wybierają różne drogi w grafie, dlatego też każda z nich rejestruje różne zbiory. Przeszukiwanie Internetu metodą grafu sprawia, że roboty nie są w stanie dotrzeć do stron, do których nie prowadzą odsyłacze z innych witryn. Żaden mechanizm nie jest doskonały - z tego powodu zdarzają się przypadki "zagubienia" zaindeksowanych stron w bazach wyszukiwarek. Kolejnym powodem istnienia tak rozległego Ukrytego Internetu jest fakt, że standardowe wyszukiwarki zostały zaprojektowane przede wszystkim do indeksowania stron powstałych w języku HTML (HyperText Markup Language), czyli mające postać statycznego tekstu. Tymczasem w sieci WWW umieszczane są witryny zawierające pliki multimedialne, graficzne, muzyczne, teksty zapisane w formacie PDF, dokumenty stworzone we Flashu, programy napisane w różnych językach programowania, pliki skompresowane, informacje wysyłane w czasie rzeczywistym, informacje generowane dynamicznie oraz dane zorganizowane w relacyjnych bazach danych. One właśnie pozostają niewidoczne dla wyszukiwarek. Powodem jest budowa i struktura tych materiałów, a także narzędzia i programy używane do ich tworzenia i obsługi.

Strategie wyszukiwania w Ukrytym Internecie

Jak widać, Ukryty Internet rzeczywiście jest ogromnym zbiorem zasobów sieciowych. Zawiera on niezwykle wartościowe materiały, co jest ważne z punktu widzenia użytkowników sieci WWW. W tym świetle umiejętność wyszukiwania "ukrytych" informacji jest nie do przecenienia, gdyż pozwala na znaczące poszerzenie zakresu poszukiwań i skrócenie czasu ich trwania. W tym celu powstało kilka strategii wyszukiwawczych, które mogą to ułatwić.
Pierwsza z nich to strategia wyszukiwawcza VIA THE WEB, która jest alternatywą dla tradycyjnego sposobu wyszukiwania (ON THE WEB) i ma dwa etapy. Pierwszy to wstępne wyszukanie stron, z których można uzyskać dostęp do interesujących wyszukującego źródeł informacji. Etap drugi to wyszukiwanie potrzebnych informacji wewnątrz wyselekcjonowanych wcześniej serwisów za pomocą dostępnych w nich lokalnych narzędzi (spisy, katalogi, kwerendy, wyszukiwarki serwisowe). Strategia ON THE WEB polega na użyciu tradycyjnych wyszukiwarek internetowych do wyszukania stron WWW i zawartych na nich informacji.
Kolejną strategią wyszukiwawczą w Ukrytym Internecie jest skorzystanie z kilku różnych narzędzi wyszukiwawczych do wyszukania dokumentów na ten sam temat. Mogą to być różnorodne wyszukiwarki (należy bowiem pamiętać, że każda z nich posiada własną, niepowtarzalną bazę zaindeksowanych dokumentów), a także multiwyszukiwarki, katalogi tematyczne ogólne i dziedzinowe, portale, serwisy internetowe oraz biblioteki wirtualne. Jeśli nie uzyskamy żadnych lub choćby zadowalających wyników wyszukiwania, należy zmienić narzędzie bądź sprecyzować frazę wyszukiwawczą. Można również skorzystać z opcji wyszukiwania zaawansowanego (m.in. użycie algebry Boole'a oraz filtrów chronologicznych lub innych).
Należy także pamiętać, że w Internecie, oprócz uzyskania konkretnych danych, można odszukać kontakt (numer telefonu, e-mail, adres strony WWW) osoby, osób lub instytucji, które mogą udzielić precyzyjnej, szukanej przez użytkownika, informacji.
Do przeszukiwania wybranych zasobów Ukrytego Internetu można także wykorzystać specjalne programy, stworzone właśnie w tym celu. Programy takie pełnią rolę metawyszukiwarek, które są w stanie przeszukiwać równocześnie wiele baz danych. Są to zwykle produkty komercyjne, które należy zakupić. Oprogramowanie to, w zależności od rodzaju i preferencji, oferuje dostęp do baz danych - z konkretnej dziedziny wybranej przez użytkownika oraz dziedzin pokrewnych; przeszukuje także pełnotekstowe i abstraktowe archiwa czasopism dotyczących wybranych zagadnień. Można także kupić dostęp do wszystkich źródeł oferowanych przez producenta. Zaletą tego typu programów jest jednoczesne przeszukiwanie wielu baz danych pod wybranym kątem. Nie trzeba wówczas robić tego samemu, przeszukując po kolei każdą z nich. Zaletą jest także możliwość prezentacji rezultatów wyszukiwania wg własnych kryteriów.
Ukryty Internet jest skarbnicą wiedzy i nieocenionym źródłem rzetelnej informacji. Aby jednak coś w nim znaleźć, należy być przede wszystkim świadomym jego istnienia oraz istnienia specyficznych strategii jego efektywnego przeszukiwania. Niewątpliwie wiedza ta jest potrzebna pracownikom nowoczesnych bibliotek, zarówno dla potrzeb własnych, jak i potrzeb użytkowników, którym w szybki i skuteczny sposób można pomóc w wyszukiwaniu pełnowartościowych i aktualnych informacji. Uważam także, że rolą bibliotekarza jest edukacja trafiających do bibliotek internautów. Zasoby Ukrytego Internetu będą się rozwijać i rozszerzać, wraz z rozwojem całej sieci globalnej, tworząc dla nieświadomych użytkowników swoistą "białą plamę" w dostępie do źródeł informacji. Ucząc i szkoląc wyszukujących, bibliotekarz może uczynić Niewidzialną Sieć choć trochę bardziej "widzialną".

Bibliografia:

1. BERGMAN, M. K. The Deep Web: surfacing hidden value [on-line]. [dostęp 3 września 2004]. Dostępny w World Wide Web: http://www.brightplanet.com/technology/deepweb.asp.

2. RAFA, J. Co każdy internauta wiedzieć powinien. Magazyn Internet, 2002, nr 7, [Dodatek: Poradnik Praktyczny, cz. 6].

3. SHERMAN, Ch., PRICE G. The Invisible Web: uncovering information sources search engines can't see. Medford, New Jersey, 2003.