Nr 6/2004 (57), Informacja w sieci. Artykuł |
Lidia Derfert-Wolf
| |||
Początki korzystania z Internetu to etap entuzjazmu nad niewiarygodnymi możliwościami komunikowania, publikowania i wyszukiwania informacji w sieci. Ci, którzy nabyli umiejętności odnajdywania dokumentów, poznali działanie wyszukiwarek i wiedzą, ile cennych informacji jest poza ich zasięgiem, przekonali się szybko, że narzędzia typu Google nie wystarczają do tematycznego przeszukiwania sieci. Ponadto pojawił się problem porządkowania i jakości informacji, szczególnie potrzebnej dla nauki i edukacji. We wczesnej fazie rozwoju Internetu rozwiązaniem były katalogi tematyczne typu directory (np. Yahoo!), grupujące witryny według popularnych dziedzin. Doborem witryn zajmowali się ludzie, którzy na podstawie przeglądu strony decydowali o jej umieszczeniu w danej kategorii. Narzędzia te rejestrowały zasoby całej sieci i nie posługiwały się określonymi kryteriami doboru źródeł czy ich opisu i klasyfikacji. Rzadko również uwzględniały zasoby tzw. sieci ukrytej (deep web, invisible web), która pod względem wielkości ok. 500-krotnie przewyższa sieć "widoczną" (surface web) [2] Równolegle do katalogów tematycznych, które obecnie przekształciły się w wielkie portale, powstawały niezależne listy linków uporządkowanych według tematów lub rodzajów informacji (katalogi biblioteczne, encyklopedie, informatory). Najwięcej z nich do tej pory spotkać można w witrynach bibliotek, również polskich [4] [6] [9]. Ich jakość niekiedy pozostawia wiele do życzenia, a metodologia doboru linków, ich opisu i aktualizacji jest bardzo zróżnicowana i rzadko opisana w serwisie. Działy tematyczne najczęściej odzwierciedlają dziedziny reprezentowane w danej uczelni bądź wszystkie tematy, jeśli wykaz tworzy biblioteka publiczna [6]. Do rzadkości należy możliwość wyszukiwania poprzez zadawanie pytań. Najczęściej mamy do wyboru jedynie wertowanie według tematów. Ciekawe rozwiązanie zastosowano w witrynie Działu Informacji Bibliografii WiMBP w Łodzi (http://www.wimbp.lodz.pl/informacja), gdzie linki uporządkowane są według UKD, zaopatrzone w krótkie adnotacje i jednocześnie można je przeszukiwać, zadając pytania prostej wyszukiwarce [6]. Tworzenie i stałe aktualizowanie tego typu przewodników jest z pewnością bardzo pracochłonne i obecny ich kształt nie spełnia do końca wymagań profesjonalnych narzędzi, posługujących się np. kontrolowanym słownikiem haseł przedmiotowych. Warto byłoby z pewnością połączyć wysiłki np. w ramach uczelni o podobnym profilu kształcenia i tworzyć jeden serwis krajowy z danej dziedziny, bazując oczywiście na najlepszych wzorcach i już istniejących wykazach. Podobnie jak to zrobiliśmy w przypadku jednego wykazu witryn i katalogów bibliotek w EBIB. Kolejnym etapem w światowym Internecie było projektowanie i rozwijanie przewodników po sieci, później portali tematycznych, współtworzonych głównie przez bibliotekarzy. W odróżnieniu od katalogów typu Yahoo!, serwisy te zawierają w większości krótkie opisy cytowanych źródeł sieciowych oraz często są uporządkowane według określonej klasyfikacji. Najstarszy tego typu katalog WWW Virtual Library (http://www.vlib.org/) jest tworzony przez wolontariuszy z całego świata i zawiera 312 odrębnych, tematycznych „bibliotek wirtualnych”. Kolejne indeksy - Librarian’s Index to the Internet czy BUBL LINK / 5:15 - zostaną omówione w dalszej części, ponieważ są przykładami serwisów typu subject gateways, omawianymi w niniejszym artykule. Tego typu serwisy różnią się od wspomnianych wyżej przede wszystkim poziomem jakości prezentowanych linków oraz strukturą organizacyjną i metodami gromadzenia danych. "Subject gateways” - pojęcia ogólne, definicjeW odpowiedzi na zapotrzebowanie na uporządkowany tematycznie dostęp do wysokiej jakości źródeł, głównie dla środowisk naukowych, powstały nowe typy serwisów, nazywane ogólnie subject gateways. Są to dziedzinowe przewodniki (miejsca startowe) po zasobach internetowych (dokumentach, obiektach, witrynach, serwisach), uporządkowane według dziedzin. Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez bibliotekarzy lub ekspertów z danej dziedziny. Subject gateways są najczęściej ukierunkowane na dziedziny związane z obszarami zainteresowań akademickich. Linki zgromadzone w tych serwisach dobiera się zgodnie z oficjalnie opublikowaną listą kryteriów oceny jakości, a później kataloguje się je i opisuje również według powszechnie stosowanych systemów klasyfikacyjnych. W porównaniu z ogólnymi i niekiedy przypadkowymi wykazami linków subject gateways są bardziej pracochłonne, ale w rezultacie dają zbiór (bazę danych) o kontrolowanej jakości, przeszukiwany według słów kluczowych i/lub do wertowania według kategorii tematycznych. Rezultaty zawierają standardowe opisy, które umożliwiają użytkownikom ocenę przydatności informacji. Ogólnie rzecz ujmując, tego typu serwisy pomagają w wyszukiwaniu informacji tematycznej i dają gwarancję odnajdywania źródeł o wysokiej jakości. Termin subject gateways, przyjęty dla potrzeb niniejszego artykułu w oryginale z powodu braku dobrego, polskiego tłumaczenia, jest pewnym uproszczeniem. Podana wyżej krótka charakterystyka odnosi się do serwisów, których przykłady podano poniżej, zwanych w literaturze również: subject-based information gateways (SBIGs), quality-controlled subject gateways, subject-based gateways, subject index gateways, virtual libraries, clearing houses, subject trees. Najczęściej spotykanym i zdaje się najwłaściwszym jest pojęcie subject-based information gateways (SBIGs), wprowadzone w trakcie realizacji projektu DESIRE (opis poniżej). Natomiast najczęściej cytowana definicja tego typu serwisów jest autorstwa T. Kocha i ujmuje ona quality-controlled subject gateways jako serwisy internetowe, wykorzystujące bogaty zestaw wskaźników jakości, pomagający systematycznie wyszukiwać źródła. Do zapewnienia doboru źródeł, zgodnie z kryteriami jakościowymi oraz ich opisu na podstawie standardowych metadanych, wkłada się znaczny trud intelektualny. Natomiast gwarancją regularnej aktualizacji i kontroli linków jest profesjonalne zarządzanie ich kolekcją. Głównym celem tych serwisów jest umożliwienie dziedzinowego dostępu do źródeł o wysokiej jakości poprzez indeksowanie zasobów Internetu przy pomocy słowników kontrolowanych oraz poprzez organizację linków według głębokiej struktury tematycznej, umożliwiającej jej przeglądanie (wertowanie) oraz przeszukiwanie [8] Dla zobrazowania charakterystyki subject gateways na poniższych rysunkach przedstawiono witrynę przykładowego serwisu (rys. 1) oraz rekord bibliograficzny z tego samego serwisu, opisujący źródło internetowe (rys. 2). Ilustracje te będą z pewnością pomocne przy lekturze dalszej części artykułu.
Cechy charakterystyczne i metodologia tworzeniaSzczegółowa charakterystyka subject gateways wymagałaby kilku publikacji. Niniejszy artykuł wskazuje jedynie w dużym skrócie na najważniejsze aspekty ich funkcjonowania,. W literaturze krajowej brak dokładnych i analitycznych opracowań na ten temat. Materiał zebrano na podstawie literatury zagranicznej [1] [3] [5] [8] i przeglądu witryn internetowych. Przykładowe serwisy typu subject gateways opisano w dalszej części. Pełniejsze zestawienie adresów umieszczono w niniejszym numerze Biuletynu EBIB w dziale „Warto wiedzieć”: Serwisy tematyczne o kontrolowanej jakości w Internecie - subject gateways. Wykaz, gdzie znaleźć można adresy wszystkich cytowanych subject gateways i projektów międzynarodowych. Omówione poniżej cechy stanowiły podstawę wypracowania przez T. Kocha definicji serwisów quality-controlled subject gateways oraz stanowią zestaw kryteriów, według których można stwierdzić, czy jakikolwiek serwis, grupujący linki do ciekawych stron internetowych, spełnia wymagania subject gateways, a dokładniej quality-controlled subject gateways czy subject-based information gateways (SBIGs)
[8]
Subject gateways są w większości tworzone na terenie jednego kraju/regionu bądź przez pojedyncze instytucje. W przeważającej liczbie gromadzą źródła anglojęzyczne i/lub źródła w języku danego kraju. Najczęściej reprezentowane typy indeksowanych źródeł to: pełne teksty dokumentów, witryny organizacji, bazy danych, spisy linków, serwisy, materiały komercyjne, oprogramowania, książki elektroniczne, dokumenty multimedialne. Dominującym formatem dokumentów jest HTML. Serwisy liczą od ok. 2 tys. do ponad 10 tys. linków. Większość z nich nie ogranicza doboru do miejsca posadowienia dokumentu (terytorium). Tematyka jest zazwyczaj ograniczona do jednej dziedziny wiedzy, np. rolnictwa, medycyny. Rzadziej spotykane są indeksy ogólne.
Zarządzanie kolekcją jest w tym przypadku pojęciem bardzo szerokim i obejmuje zarówno gromadzenie źródeł (wyszukiwanie w sieci), jak i opracowanie oraz utrzymanie zbioru opisów bibliograficznych w bazie danych. W tym miejscu warto wspomnieć o tym, kto tworzy subject gateways. Pierwsze tego typu serwisy powstawały w wielkich bibliotekach z inicjatywy bibliotekarzy (BUBL, LII). Ze względu na wymaganą wysoką jakość przy wyszukiwaniu i katalogowaniu źródeł do współpracy przystąpili eksperci z odpowiednich dziedzin. Wiele serwisów umożliwia zgłaszanie źródeł przez użytkowników sieci, którzy muszą podać adres URL, krótki opis oraz słowa kluczowe. Jednak zawsze w takim przypadku zgłoszenie jest weryfikowane, opis uzupełniany i dodawane dodatkowe elementy do rekordu bibliograficznego. Zajmują się tym redaktorzy serwisów. Korzystając z takiej możliwości, zgłoszono np. polską bazę danych BAZTECH do kilku prestiżowych subject gateways z zakresu nauk technicznych (rys. 2). Odpowiedzialnymi za tworzenie są najczęściej uczelnie, a finansowanie pozostaje w gestii odpowiednich ministerstw, agencji rządowych czy fundacji i dodatkowo sponsorów. Bardzo dużo subject gateways powstało lub było wspieranych metodologicznie w ramach projektów finansowanych przez UE. Polityka gromadzenia i opracowania źródeł internetowych oraz utrzymania zbioru opisów opiera się na opublikowanych zasadach (niekoniecznie dostępnych w sieci). Należy pamiętać, że selekcja zasobów nie odbywa się automatycznie, ale manualnie - ludzie gromadzą i oceniają dokumenty. Jeśli chodzi o dobór źródeł, zasady dotyczą głównie kompletności i zakresu kolekcji, biorąc pod uwagę odbiorców, dla których jest serwis tworzony. Należy sprecyzować zakres tematyczny, akceptowane typy dokumentów, poziom prezentowanej informacji, rodzaj dostępu (koszty, wymagane hasła), stosowane w witrynach technologie, terytorium, język. Kolejne ważne dokumenty i instrukcje koncentrują się wokół jasnych i klarownych kryteriów oceny dokumentów. Najczęściej są to:
Z kolei polityka utrzymywania kolekcji linków i ich opisów powinna gwarantować aktualność całego serwisu. Dotyczy to systematycznego sprawdzania rekordów pod kątem zmian i kontroli, czy opis jest nadal adekwatny do źródła (np. uzupełniania adnotacji o nowości w wyszukanych źródłach), regularnego aktualizowania kolekcji (dodawania nowych linków z określoną częstotliwością), sprawdzania linków już zarejestrowanych w bazie. 3) OprogramowanieWdrożenie i eksploatacja subject gateways wymaga korzystania ze specjalistycznych programów do przechowywania danych (niekiedy kopii witryn), indeksowania źródeł oraz wyszukiwania. W zależności od serwisu są to programy darmowe lub komercyjne. Większość europejskich systemów wykorzystuje pakiet opracowany w ramach projektu ROADS, o którym będzie mowa w dalszej części artykułu. Opisy (adnotacje, abstrakty, symbole klasyfikacyjne) przechowywane są w bazie danych. Wyszukiwanie odbywa się zazwyczaj przy pomocy interfejsu opartego na przeglądarkach WWW i daje do dyspozycji użytkownikom kilka poziomów zaawansowania oraz techniki przypominające wyszukiwanie w profesjonalnych bazach danych. Witryny będące rezultatem wyszukiwania są najczęściej w języku HTML lub Java. 4) Metadane i opis zawartościŹródła sieciowe w subject gateways są katalogowane pod względem formalnym (np. autor/twórca, tytuł, data, adres URL, typ dokumentu, język, data skatalogowania, nazwisko katalogującego) według standardowych formatów. Zwykle jest to Dublin Core albo RDF [10] [11] [12]. Nie wszystkie serwisy ujawniają to w swoich witrynach. W niektórych można po wyszukaniu opisu źródła wybrać opcję wyświetlania rekordu w formacie np. Dublin Core, podobnie jak w systemach bibliotecznych - MARC. Opis przedmiotowy tworzony jest dla indywidualnego źródła również zgodnie ze standardami, ale o zdecydowanie wyższej jakości niż ma to miejsce w przypadku stron internetowych, gdzie w dokumencie HTML, w polu "keywords" czy "description" wpisywane są dowolne treści, niekiedy nie mające związku z dokumentem. W subject gateways obowiązują publikowane zasady opisu dokumentu (źródła sieciowego), który jest przeważnie sformalizowaną i spójną adnotacją, streszczeniem lub recenzją opracowywaną zawsze przez specjalistę z danej dziedziny. To właśnie jedna z cech odróżniających te serwisy od zwykłych wyszukiwarek, gdzie opisem jest najczęściej uzyskiwany automatycznie początek albo fragment tekstu dokumentu. Większość metadanych w subject gateways jest wyświetlana jako rezultat wyszukiwania (opis bibliograficzny źródła) i już na tym etapie - zanim połączymy się ze wskazanym źródłem - możemy na podstawie metadanych ocenić wstępnie jego wartość i przydatność do dalszej pracy. 5) Dostęp dziedzinowyJako minimalne wymaganie dla przedmiotowego opisu źródła i dostępu do źródeł w subject gateways uważa się wysoki poziom jakościowy kategorii tematycznych, porządkujących zasób i dostępnych dla użytkownika do ich przeglądania. Drugim podstawowym warunkiem jest indeksowanie źródeł według niekontrolowanych słów kluczowych, wspomagających proces wyszukiwania. Głęboka struktura hierarchiczna oparta na znanych systemach klasyfikacyjnych i indeksowanie na podstawie kontrolowanych słowników (np. tezaurusy, biblioteczne systemy klasyfikacyjne) wskazuje na wysoki poziom subject gateways [8] [16]. Do najczęściej wykorzystywanych klasyfikacji należą:
Natomiast najpowszechniej stosowanymi tezaurusami są: Ei thesaurus (nauki techniczne), HASSET thesaurus (nauki społeczne), MeSH thesaurus (medycyna), Arts and Architecture Thesaurus (architektura i sztuka), Thesaurus of Geographic Names, hasła przedmiotowe Biblioteki Kongresu LCSH i CAB (rolnictwo). 6) Dodatkowe możliwościWiększość subject gateways umożliwia zarówno wyszukiwanie według terminów, jak również przeglądanie bazy danych opisów źródeł. Końcowym rezultatem jest bezpośrednie połączenie (link) do określonej witryny czy serwisu. Podstawowe techniki wyszukiwania są zbliżone do technik powszechnie stosowanych w wyszukiwarkach. Jednakże na poziom danego subject gateway wpływa umożliwienie wyszukiwania przy pomocy złożonych zapytań z użyciem operatorów Boole’a, możliwość „maskowania” końcówek, korzystania z tezaurusów, ograniczania rezultatów do ściśle określonego terytorium, języka czy typu dokumentu. Niektóre pozwalają nawet ograniczyć wybór do poziomu źródła, czyli wybrać materiały odpowiednie dla uczniów, studentów czy naukowców. Do innych możliwości i elementów wybranych subject gateways, poza interfejsem do wyszukiwania, należą:
7) WspółdziałanieKolejnym etapem w rozwoju subject gateways jest tworzenie wspólnych "bramek" wyszukiwawczych dla kilku serwisów. Istnieje już kilka projektów (np. Renardus, RDN), jednoczących subject gateways i tworzących serwisy typu cross-searching, których celem jest jednoczesne przeszukiwanie kilku gateway [7] [13]. Może to się odbywać na poziomie krajowym albo tematycznym. Współpraca polega albo wyłącznie na umożliwianiu wyszukiwania w kilku bazach jednocześnie, albo dodatkowo na współkatalogowaniu zasobów internetowych. W pierwszym przypadku poszczególne serwisy nie zmieniają zasad swojego funkcjonowania i nadal pozostają niezależne. Jednak dla użytkowników w wielu sytuacjach może być cenniejszy dostęp do wielu indeksów z jednego miejsca. Podstawowym i koniecznym warunkiem do współdziałania różnych serwisów jest stosowanie standardowych metod opisów danych (np. Dublin Core czy RDF) oraz standardów umożliwiających jednoczesne wyszukiwanie (np. Z39.50). Wymieniane niżej europejskie projekty (ROADS, DESIRE) dotyczyły wypracowywania metod i narzędzi programowych, pomocnych w tworzeniu wspólnych interfejsów dla kilku samodzielnych subject gateways. Projekty wspomagające tworzenie subject gateways, współpraca międzynarodowaPierwsze typowe serwisy subject gateways z określonej dziedziny wiedzy powstawały w Europie w latach 90. głównie w Wielkiej Brytanii w ramach programu eLib (ADAM, EEVL, Sosig) czy w Szwecji (Engineering E-Library, EELS). W celu ujednolicenia prac, wspomagania ich rozwoju oraz opracowywania wskazówek dla twórców nowych serwisów realizowano kilka ważnych projektów międzynarodowych
[15] ROADS http://www.ilrt.bris.ac.uk/roads/
Oprogramowania ROADS są wykorzystywane przez wiele europejskich subject gateways, m.in. ADAM, Biz/ed, EELS, Finnish Virtual Library, OMNI, Sosig. Mimo że projekt został zakończony, narzędzia i metody wypracowane w trakcie jego realizacji nadal służą wszystkim nowym twórcom subject gateway i są udostępniane poprzez witrynę internetową. DESIRE http://www.desire.org
IMesh: International Collaboration on Internet Subject Gateways http://www.imesh.org
Renardus http://www.renardus.org
Przykłady subject gatewaysDla zobrazowania materiału zawartego w niniejszym artykule warto przedstawić bliżej kilka serwisów typu subject gateways. Nie ma oczywiście żadnych wykazów w sieci rejestrujących wszystkie systemy. Zainteresowanych najważniejszymi odsyłam do załącznika Serwisy tematyczne o kontrolowanej jakości w Internecie - subject gateways. Nie ma również standardowej typologii tych serwisów, zwłaszcza że wiele z nich można zaliczyć do kilku grup. Poza tym niektóre działają niezależnie i jednocześnie są częściami systemów typu cross-searching, np. RDN. subject gateways można dzielić według tematyki, języka, terytorium, współpracy i wielu innych. W zakresie tematyki będą to serwisy rejestrujące źródła ogólnodziedzinowe (np. BUBL, LII, ScoutReport, DutchESS) lub dotyczące jednej dziedziny (np. SOSIG, AVEL, Agrigate, Biz/ed). W zakresie terytorium można je dzielić z kolei na takie, które są tworzone na terenie jednego kraju we współpracy kilku instytucji i rejestrują zasoby światowe (np. DutchESS) lub wyłącznie z danego kraju (np. AVEL, Agrigate). Stosując podział według rodzaju współpracy, wyróżnić można serwisy, w których dokonano podziału pracy (dobór, katalogowanie) w ramach jednego subject gateway (np. NOVAGate, DutchESS) albo współpraca dotyczy jedynie wspólnego interfejsu do wyszukiwania w kilku serwisach (np. RDN, Renardus). Poniższe przykłady są najciekawszymi, zdaniem autorki, serwisami, zarówno pod względem tworzenia, jak i współpracy międzynarodowej.
BUBL Information Service http://bubl.ac.uk/
Oczywiście jest również dostępna opcja wyszukiwania według słów i wyrażeń na trzech poziomach zaawansowania oraz opcja przeglądania według typów dokumentów oraz krajów. W katalogu BUBL zarejestrowanych jest obecnie ponad 11 000 źródeł.
LII, Librarian's Index to the Internet http://lii.org/
RDN, Resource Discovery Network http://www.rdn.ac.uk/
DutchESS, Dutch Electronic Subject Service http://www.kb.nl/dutchess/index.html
VASCODA (Niemcy) http://www.vascoda.de/
Australian Subject Gateways Forum (ASGF) http://www.nla.gov.au/initiatives/sg/gateways.html ZakończeniePodsumowując, warto przypomnieć główne cechy subject gateways:
Jednym z wniosków nasuwających się na podstawie tej charakterystyki - niezbyt budującym - jest stwierdzenie, że nie mamy żadnego krajowego systemu tego typy, ani ogólnodziedzinowego, ani dotyczącego wybranej tematyki. Pierwsze subject gateways powstawały ze zwykłych list typu bookmark, tworzonych przez bibliotekarzy i przekształcanych potem w "polecane linki". Tych ostatnich mamy na witrynach polskich bibliotek bardzo dużo - niektóre na wysokim poziomie kompletności. Warto byłoby na wzór przedstawionych tu przykładów połączyć wysiłki i stworzyć prawdziwe subject gateways. Zwłaszcza że kraje bardziej zaawansowane w tej dziedzinie wypracowały metody i środki techniczne, które w większości są bezpłatnie dostępne w sieci. Poza tym można dołączyć do wielu projektów międzynarodowych. Jak zwykle dyskusyjna pozostaje kwestia finansowania. W wielu krajach czynią to odpowiednie ministerstwa lub agencje rządowe. Jednak najważniejsza jest inicjatywa, która wzorem dobrych przykładów (NUKAT, Sympo, BazTech) może pochodzić z jakiejkolwiek biblioteki lub grupy bibliotek. Mamy dobre doświadczenia we współpracy i należy je wykorzystać w kolejnym wyzwaniu dla bibliotekarzy. W tym miejscu należy przyznać rację Markowi Nahotko, który stwierdził, że [...] lawinowo rosnąca ilość publikacji internetowych i wszelkich tzw. Informacji "wirtualnych" otwiera nowe i ciekawe możliwości pracy dla bibliotekarzy. Ktoś bowiem musi zapanować nad chaosem, który obecnie cechuje Internet i twierdzę, że będą to bibliotekarze, którzy dysponują prawie gotowymi narzędziami [...]. Zmieni się też pewnie kąt widzenia bibliotekarzy - z dbałości o własne, lokalne zasoby na pracę w ogólnoświatowej, wirtualnej „bibliotece” zasobów sieciowych [12] Bibliografia1. BAWDEN, David, ROBINSON, Lyn. Internet subject gateways revised. International Journal of Information Management 2002, nr. 22, s. 157-162. |
| |||