Nr 7/2004 (58), Jednoosobowe zarządzanie biblioteką. Badania, teorie, wizje |
Natalia Pamuła-Cieślak
| |||
Terminologia i zawartośćUkryty Internet (ang. Invisible Web) to termin, który jest niezwykle trudny do zdefiniowania. Nie jest to bowiem żaden konkretny twór, nie ma również specyficznej lokalizacji w globalnej sieci. Jednakże termin ten pojawił się w literaturze i Internecie właśnie dlatego, że w praktyce wyszukiwania informacji okazało się, iż strony, które są wyszukiwalne przez wyszukiwarki internetowe, stanowią zaledwie jedną pięćsetną całkowitych zasobów Internetu. Trzeba było więc to zjawisko jakoś nazwać. Definiuje się Ukryty Internet jako strony tekstowe, pliki lub inne, zwykle bardzo wartościowe merytorycznie, informacje dostępne poprzez sieć WWW, których nie indeksują i nie wyszukują wyszukiwarki internetowe (ang. public search engines). Czasem zasoby te nazywane są także Deep Web (Głęboka Sieć) bądź też "dark matter" (ciemna materia). Zasoby "sieci widzialnej" i "niewidzialnej" nie różnią się tylko obecnością bądź nieobecnością w bazach wyszukiwarek. Sieć "widzialna" to materiały, które nie podlegają często kontroli merytorycznej, językowej i bibliograficznej; wiele do życzenia pozostawia także ich aktualność. Jest to spowodowane faktem, że tak naprawdę każdy użytkownik sieci WWW może w niej umieścić jakąkolwiek informację w formie strony internetowej. Koszt finansowy dostępu do takich zasobów jest bardzo niski lub żaden. Ukryty Internet to w większości różnorodne bazy danych, archiwa, serwisy on-line zorganizowane w postaci hierarchicznej struktury, w których dane są prawidłowo zaindeksowane. W zasobach tych znajdują się informacje pod kontrolą specjalistów dziedzinowych, profesjonalne - zgodne z zasadami języka i stanem badań oraz z zachowaniem praw autorskich. Dlatego też często (aczkolwiek nie zawsze) zasoby pozyskane poprzez Ukryty Internet są płatne. Ale to właśnie tu można odnaleźć pełnotekstowe przeglądy czasopism naukowych, zarchiwizowane artykuły z prasy codziennej, abstrakty naukowe, archiwa grup dyskusyjnych, fachowe słowniki i encyklopedie, obrazy, pliki audio i wideo, pliki graficzne, programy oraz bazy teleadresowe. Właśnie w Ukrytym Internecie istnieją takie źródła informacji, jak Dialog, LexisNexis, Dow - Jones News Retrieval. Zawartość tematyczna Głębokiej Sieci to:
Dlaczego istnieje Ukryty Internet?Przyczyn jest kilka, a większość z nich wiąże się z budową mechanizmów wyszukująco-indeksujących w wyszukiwarkach internetowych. Wyszukiwarki zbierają strony do zaindeksowania metodą wędrówki po łączach hipertekstowych. Połączone siecią odnośników strony tworzą twór zwany grafem. Ponieważ struktura grafu nigdy nie jest dokładnie znana, nie można opracować algorytmu, który niezawodnie wyszuka i zaindeksuje wszystkie witryny internetowe. Roboty obsługujące poszczególne wyszukiwarki wybierają różne drogi w grafie, dlatego też każda z nich rejestruje różne zbiory. Przeszukiwanie Internetu metodą grafu sprawia, że roboty nie są w stanie dotrzeć do stron, do których nie prowadzą odsyłacze z innych witryn. Żaden mechanizm nie jest doskonały - z tego powodu zdarzają się przypadki "zagubienia" zaindeksowanych stron w bazach wyszukiwarek. Kolejnym powodem istnienia tak rozległego Ukrytego Internetu jest fakt, że standardowe wyszukiwarki zostały zaprojektowane przede wszystkim do indeksowania stron powstałych w języku HTML (HyperText Markup Language), czyli mające postać statycznego tekstu. Tymczasem w sieci WWW umieszczane są witryny zawierające pliki multimedialne, graficzne, muzyczne, teksty zapisane w formacie PDF, dokumenty stworzone we Flashu, programy napisane w różnych językach programowania, pliki skompresowane, informacje wysyłane w czasie rzeczywistym, informacje generowane dynamicznie oraz dane zorganizowane w relacyjnych bazach danych. One właśnie pozostają niewidoczne dla wyszukiwarek. Powodem jest budowa i struktura tych materiałów, a także narzędzia i programy używane do ich tworzenia i obsługi. Strategie wyszukiwania w Ukrytym Internecie
Jak widać, Ukryty Internet rzeczywiście jest ogromnym zbiorem zasobów sieciowych. Zawiera on niezwykle wartościowe materiały, co jest ważne z punktu widzenia użytkowników sieci WWW. W tym świetle umiejętność wyszukiwania "ukrytych" informacji jest nie do przecenienia, gdyż pozwala na znaczące poszerzenie zakresu poszukiwań i skrócenie czasu ich trwania. W tym celu powstało kilka strategii wyszukiwawczych, które mogą to ułatwić. Bibliografia:1. BERGMAN, M. K. The Deep Web: surfacing hidden value [on-line]. [dostęp 3 września 2004]. Dostępny w World Wide Web: http://www.brightplanet.com/technology/deepweb.asp. 2. RAFA, J. Co każdy internauta wiedzieć powinien. Magazyn Internet, 2002, nr 7, [Dodatek: Poradnik Praktyczny, cz. 6]. 3. SHERMAN, Ch., PRICE G. The Invisible Web: uncovering information sources search engines can't see. Medford, New Jersey, 2003. |
| |||