| |
Jadwiga Woźniak-Kasperek Instytut Informacji Naukowej i Studiów Bibliologicznych, Uniwersytet Warszawski
jbwozniak@uw.edu.pl Organizacja informacji w internetowych serwisach kontrolowanej jakości Information organisation in subject gateways
Słowa kluczowe
Języki informacyjno-wyszukiwawcze, organizacja informacji, organizacja wiedzy, serwisy kontrolowanej jakości, słowa kluczowe, słowniki kontrolowane, wyszukiwanie informacji
Keywords
Controlled vocabularies, indexing languages, information retrieval, information searching, knowledge organisation, subject gateways
Abstrakt
Podstawowe charakterystyki serwisów kontrolowanej jakości. Udział i znaczenie ekspertów w dobieraniu i opracowaniu obiektów informacyjnych. Przykłady systemów organizacji informacji i wiedzy wykorzystywanych w tych serwisach. Słowniki kontrolowane i swobodne słowa kluczowe jako dwa komplementarne podejścia do problemu reprezentacji i wyszukiwania informacji
Abstract
Basic characteristics of subject gateways. Participation of experts and the importance of their input in the selection and indexing of information objects. Instances of knowledge organisation systems utilised in subject gateways. Controlled vocabularies and uncontrolled keywords as the two complementary attitudes towards the problem of information representation and retrieval.
Liczba jest istotą wszystkich rzeczy
Pitagoras (ok. 572-497 p.n.e.)
Co najmniej jedno z marzeń ludzkości jest niemal tak stare jak świat. Wiedzieć, być poinformowanym. Nawet Eden nie był wystarczająco atrakcyjny w konfrontacji z tym pragnieniem. Adam i Ewa zjedli jabłko z drzewa poznania (dobra i zła), zwanego także drzewem wiadomości (Księga Rodzaju 2,9). Dlaczego i co nastąpiło później, wszyscy wiemy. Dziś marzenie ludzkości, żeby wiedzieć, wydaje się być bliskie spełnienia - w każdym czasie i z każdego miejsca można mieć dostęp do magazynu wiedzy ludzkości, żadne pytanie nie pozostanie bez odpowiedzi. Czego nie mamy w głowie, to wydobędziemy za niewielką opłatą lub nawet bezpłatnie z Sieci. Ale czy na pewno nie grozi nam rozczarowanie? Przeciętny użytkownik Internetu może ulec złudzeniu, że wyszukiwarki globalne, konwencjonalne, takie jak np. Google, znajdują wszystko. Rzeczywiście znajdują dużo i coraz więcej. Z jednej strony szukający tonie w oceanie odpowiedzi, z drugiej – szczególnie gdy interesuje się specjalistycznym tematem - wyszukiwarka wcale nie tak rzadko nic nie znajduje. Czy to znaczy, że informacji na dany temat nie ma w Internecie? Czasami i tak się zdarza, ale częściej mamy do czynienia z sytuacją, gdy poszukiwana informacja istnieje, ale z różnych powodów nie potrafimy jej odnaleźć.
Optymalizacja wyszukiwania jest zatem jednym z najważniejszych problemów informacyjnych naszych czasów. Jego rozwiązań poszukuje się także w nauce o informacji, prowadząc prace teoretyczne i praktyczne zarówno w zakresie metod wyszukiwania, jak i organizacji informacji, jej opracowania czy interpretacji. To, jak problem wyszukiwania informacji zostanie rozwiązany, zadecyduje, czy (już dziś) ogromne zasoby informacji umieszczone w Sieci będą łatwo dostępne dla użytkowników, czy też pozostaną zasobami potencjalnymi. Miarą niewystarczalności obecnie wykorzystywanych technik i urządzeń wyszukiwawczych jest choćby to, że wyszukiwarki[1] potrafią zlokalizować i poindeksować zaledwie małą część (w literaturze najczęściej wskazuje się na około 1/500) zasobów Internetu. Lwia część informacji pozostaje niedostępna, niewidoczna, ukryta przed większością użytkowników. Jest to tzw. Niewidoczna Sieć (zwana także Ukrytym Internetem, Głęboką Siecią czy Niewidzialnym Internetem).
Większość tych „niewidocznych” zasobów to wartościowe, specjalistyczne bazy danych, archiwa cennych materiałów źródłowych i bibliograficznych, pełnotekstowe przeglądy czasopism naukowych, zarchiwizowane artykuły z prasy codziennej, abstrakty naukowe, archiwa grup dyskusyjnych, fachowe słowniki i encyklopedie, obrazy, pliki audio i wideo, pliki graficzne, programy czy bazy teleadresowe, itp. Zasoby te są tworzone i utrzymywane m.in. przez uczelnie wyższe, biblioteki, instytucje naukowe, rządowe i międzynarodowe. Niewidoczne zasoby Internetu są poddawane weryfikacji, kwalifikowane i opracowane przez redaktorów[2], na ogół specjalistów dziedzinowych. Niektóre z nich obejmują wiele dziedzin wiedzy, inne – wyspecjalizowane – to tzw. bramki[3] tematyczne (serwisy kontrolowanej jakości, kwalifikowane subject gateways), rejestrujące[4] i organizujące zbiory informacyjne z określonej dziedziny. Bramki tematyczne to często jedyne narzędzie, dzięki któremu można dotrzeć do zasobów wielokrotnie liczniejszych od powszechnie dostępnych, w dodatku profesjonalnie, zgodnie ze stanem badań, zasadami języka i z zachowaniem praw autorskich wyselekcjonowanych i opracowanych. Aby uniknąć jakichkolwiek nieporozumień warto jeszcze raz powtórzyć: informacje w tych serwisach są wyszukiwane w Internecie i dobierane przez ekspertów, przez nich (lub przy ich współpracy) opracowywane, organizowane i prezentowane. Bramki tematyczne nie są przykładem realizacji idei Sieci Semantycznej, jak czasami mylnie się uważa. Są, moim zdaniem, rozwiązaniem przejściowym między „klasycznym” Webem a Semantyczną Siecią przyszłości. Bramki tematyczne dostarczają także dowodów na to, że informacje w Internecie nie są reprezentowane i wyszukiwane jedynie i wyłącznie za pomocą swobodnych słów kluczowych, gdyż w wielu z nich (jeśli nie w większości) stosuje się formy kontroli w postaci języków indeksowania (informacyjno-wyszukiwawczych) czy tzw. systemów organizacji wiedzy.
Spośród wielu zagadnień, jakimi można byłoby się zająć, uwagę skupię jedynie na organizacji informacji[5] w internetowych serwisach kontrolowanej jakości. Moim celem będzie pokazanie, jak najlepsza praktyka bibliotekarstwa i informacji naukowej, której przykładem będą tu języki informacyjno-wyszukiwawcze (w kontekście Internetu częściej nazywane, np. słownikami kontrolowanymi czy listami autoryzowanymi, mimo to pozostające tym, czym są) i ich wykorzystanie w wyszukiwaniu, może się łączyć z potencjałem, możliwościami współczesnej technologii komputerowej i teleinformatycznej. Swoją wypowiedź ograniczę do prezentacji modeli zjawisk i rozwiązań. Rezygnuję z posługiwania się przykładami wybranych serwisów, wierząc, że czytelnicy sami bez trudu znajdą w Internecie liczne egzemplifikacje przedstawionych dalej rozwiązań modelowych[6]. Tezą artykułu jest pokazanie (w ograniczeniu do internetowych serwisów kontrolowanej jakości) komplementarności dwóch grup narzędzi reprezentowania i wyszukiwania informacji (słowniki kontrolowane i swobodne słowa kluczowe), komplementarności będącej w moim przekonaniu rozwiązaniem zapewne nie optymalnym, ale efektywniejszym od braku jakiejkolwiek kontroli.
Coraz częściej słyszy się opinię o rychłym upadku wszelkich form kontroli słownictwa w praktyce informacyjno-wyszukiwawczej na rzecz swobodnych słów kluczowych. Rosenfeld i Morville w Architekturze informacji[7] poświęcili sporo miejsca tezaurusom, słownikom kontrolowanym i metadanym, pokazując, w jaki sposób kontrolowany słownik pozwala połączyć różne systemy (organizacyjny, etykietowania, nawigacyjny, wyszukiwania itd.) jednego serwisu w celu zwiększenia jego funkcjonalności i wydajności. W mojej opinii, rozsądna kontrola nazewnictwa stosowanego do reprezentacji obiektów informacyjnych, w tym dokumentów bibliotecznych, i do wyszukiwania jest pożądana. Za niebezpieczne uważam mówienie, że panaceum na wszelkie bolączki są swobodne słowa kluczowe. Słowa kluczowe są ważne, potrzebne i nie do odrzucenia, ale nie są jedynym i wyłącznym narzędziem, jakim możemy i powinniśmy się posługiwać. Są rozwiązaniem komplementarnym, propozycją dodatkową do efektywnego wykorzystania w określonych sytuacjach informacyjno-wyszukiwawczych, np. przy swobodnym przeszukiwaniu pełnego tekstu. Wiedza słów kluczowych nie powinna być jedyną wiedzą systemu. Pozostawmy użytkownikom komfort posługiwania się słowami kluczowymi w dialogu z systemem, ale zadbajmy o to, żeby w tle wspomagała procesy wyszukiwania przezroczysta wiedza systemu. Metadane i słowniki kontrolowane są doskonałymi soczewkami, przez które widać sieć wzajemnych powiązań miedzy systemami. W wielu rozległych serwisach sterowanych przez metadane, słowniki kontrolowane są klejem utrzymującym razem poszczególne systemy. Zaś działający w tle tezaurus pozwala na ukrycie szwów przed użytkownikiem korzystającym z narzędzi udostępnionych na pierwszym planie[8].
1. Systemy organizacji informacji (wiedzy)
Podstawą wyróżniania typowych systemów organizacji informacji często bywa sposób uporządkowania wyrażeń reprezentujących pole semantyczne pewnej wiedzy dziedzinowej. W literaturze dotyczącej porządkowania cyfrowych zasobów informacyjnych i architektury informacji na ogół wyróżnia się dwa podstawowe typy organizacji informacji (wiedzy): dokładne schematy organizacyjne i niejednoznaczne schematy organizacyjne. Schematy dokładne bazują na formalnych kryteriach porządkowania wyrażeń, schematy niejednoznaczne na kryteriach logiczno-semantycznych. W schematach dokładnych każde wyrażenie wyznacza jednoznacznie zidentyfikowaną klasę obiektów lub treść, a zakresy poszczególnych klas są rozłączne. Schematy dokładne zapewniają szybkie i łatwe odnajdywanie informacji, o ile użytkownik zna nazwy interesujących go osób, miejsc, dzieł czy innych obiektów informacyjnych; nie umożliwiają jednak całościowego wglądu w zawartość tak zorganizowanych zasobów informacyjnych (inaczej mówiąc, wyszczególniając informację o obiektach jednostkowych, nie zapewniają jej generalizacji). W przypadku schematów niejednoznacznych mamy do czynienia z podziałem na grupy (klasy, kategorie) uporządkowane według kryteriów semantyczno-logicznych. Do schematów niejednoznacznych należą różne odmiany struktur hierarchicznych, których klasy reprezentowane są przez wyrażenia naturalne. Ponieważ rzadko się zdarza, żeby wyraz czy wyrażenie miało tylko jedno znaczenie, przy hierarchizacji klas bierze się pod uwagę jedną, arbitralnie przyjętą interpretację znaczeniową reprezentującego ją wyrażenia lub dąży się do objęcia hierarchizacją wielu lub wszystkich możliwych jego znaczeń. Używając słów jako etykiet kategorii tematycznych, ryzykuje się, że różni użytkownicy mogą je różnie rozumieć. Odrębną kwestią jest wybór kryteriów porządkowania, implikujący określoną interpretację porządkowanych wyrażeń, która nie zawsze konweniuje z interpretacją znaną lub preferowaną przez użytkownika. W rezultacie w oczach użytkowników niejednoznaczny może stać się cały układ hierarchiczny. Stąd też wśród tego rodzaju SOW dominuje dążenie do wieloaspektowej organizacji polihierarchicznej. Niejednoznaczne schematy organizacyjne mają zapewnić wgląd w całą zawartość organizowanych zasobów informacyjnych i poprzez jej przeglądanie umożliwić odnalezienie informacji, której użytkownik nie potrafi wcześniej zdefiniować[9].
Spośród wielu znanych modeli organizacji informacji do najczęściej wykorzystywanych należą: w kategorii schematów dokładnych listy terminów (wykazy słownictwa), zaś w kategorii schematów niejednoznacznych klasyfikacje i kategoryzacje (struktury hierarchiczne) oraz tezaurusy i ontologie (listy relacyjne).
1.1 Wykazy słownictwa zwane także listami terminów lub słownikami kontrolowanymi
Najprostszym słownikiem kontrolowanym jest lista wyrażeń równoznacznych w postaci pierścienia synonimów lub lista wyrażeń preferowanych w postaci pliku autoryzowanego. W działalności biblioteczno-informacyjnej najczęściej wykorzystywanymi odmianami wykazów słownictwa są kartoteki wzorcowe i autorytatywne, glosariusze[10], słowniki[11] i indeksy. Jeśli pomiędzy elementami listy wyrażeń zostanie określona relacja hierarchiczna, to powstały obiekt będzie zaliczony do grupy schematów klasyfikacyjnych.
1.2 Klasyfikacje i kategoryzacje
Tę grupę narzędzi organizacji informacji charakteryzuje cecha bezpośredniego wskazywania związków hierarchicznych między pojęciami. Często określenia: klasyfikacja, kategoryzacja czy taksonomia stosowane są zamiennie, choć w teorii zakresy tych trzech terminów są precyzyjnie rozróżniane.
Systemy organizacji wiedzy zwane klasyfikacjami często nie spełniają warunków stawianych klasyfikacjom w sensie logicznym, co jednak nie wpływa negatywnie na ich użyteczność. W praktyce są to zróżnicowane struktury wykorzystujące równolegle podział na kategorie przedmiotowe i klasy dyscyplinarne. Architektura informacji do podziałów hierarchicznych zalicza też systemy haseł przedmiotowych, które zwykle pozwalają wyodrębniać dość szczegółowe szeregowane alfabetycznie kategorie tematyczne, szeregując będące rezultatem połączenia tematu z określnikami. Systemy haseł przedmiotowych nie prezentują hierarchicznej organizacji pojęć reprezentowanych przez wyrazy (tematy i/lub określniki), jakkolwiek informacje o relacjach hierarchicznych są zamieszczane w artykułach przedmiotowych. Same systemy (języki) haseł przedmiotowych w zasadzie należałoby zaliczyć do kategorii wykazów słownictwa (list terminów kontrolowanych). Jednak na poziomie organizacji zasobów informacyjnych hasła przedmiotowe prowadzą do powstania struktury hierarchicznej[12], w której klasy najogólniejsze reprezentowane są przez hasła proste, identyfikujące przedmiot informacji (niekiedy formę – hasła z tematami formalnymi), a podrzędne wobec nich klasy szczegółowe wyodrębniane są za pomocą określników wskazujących specyficzne aspekty przedmiotów. Inaczej mówiąc, określniki po połączeniu z tematami (hasła przedmiotowe rozwinięte) generują pewien układ hierarchiczny zagadnień szczegółowych związanych z przedmiotem reprezentowanym przez temat.
Obecnie w praktyce coraz częściej mamy do czynienia z kategoryzacjami[13] (nie klasyfikacjami) jako formami organizacji informacji. Pojęcie kategoryzacji jest wieloznaczne. Najczęściej mianem tym określa się albo proces wyodrębniania obiektów i ich zbiorów traktowanych z pewnego punktu widzenia jako jednorodne, czyli proces ustanawiania kategorii, albo proces przypisywania przedmiotów do już istniejących kategorii, czyli kategoryzowania. Kategoryzacja bywa również rozumiana jako synonim terminu kategoria, a dokładniej – układu kategorii. Z kolei termin kategoria używany jest na oznaczenie m.in. klasy obiektów charakteryzujących się wspólnymi właściwościami wziętymi za podstawę kategoryzacji (czasami formułowany jest dodatkowy warunek odpowiedniej ogólności klasy aspirującej do miana kategorii jako odróżniający ją od klasy w ogóle). Klasyfikacje mają naturę różnicującą, są nastawione na odnajdowanie w porządkowanych obiektach tego, co odróżnia jeden obiekt od pozostałych, podczas gdy kategoryzacje są ukierunkowane na łączenie, poszukując w obiektach tego, co wspólne, podobne.
Kategoryzacja jest „wdzięcznym” polem badawczym dla kognitywistów, którzy nawiązując do tzw. klasycznej teorii kategoryzacji[14], wykorzystują ją jako tło dla prezentacji własnych, w ich opinii praktycznych i bardziej adekwatnych, propozycji rozwiązań badanych problemów. Kategoryzacja jest niezbywalnym atrybutem poznania. Poprzez dostrzeganie i uznawanie podobieństw między potencjalnie odmiennymi przedmiotami, człowiek uzyskuje możliwość rozszerzania uogólnień utworzonych na podstawie poprzednich doświadczeń. Bez zdolności rozpoznawania podobieństw, istniejących między skądinąd niepodobnymi obiektami, bylibyśmy przytłoczeni złożonością rzeczywistości. Zatem kategoryzacja jest środkiem jej upraszczania, redukowania obciążenia pamięci, pomaga w efektywnym gromadzeniu i wyszukiwaniu informacji itp. Podobnie jak klasy w klasyfikacji, kategorie nie istnieją w izolacji, lecz są łączone relacjami, obejmującymi szczególne przypadki w ramach struktury szerszych czy bardziej ogólnych kategorii nadrzędnych. Nierozstrzygnięta pozostaje przy tym kwestia, czy to struktura języka wpływa na percepcję i poznanie świata, w tym kategoryzację, czy też poznanie determinuje fakty językowe.
Bardziej lub mniej rozbudowane układy kategorii tematycznych należą dziś do najpopularniejszych metod organizacji informacji w różnego rodzaju serwisach internetowych. Stosowane są zarówno w wielkich portalach o uniwersalnym zakresie, np. Yahoo, jak i w bramach specjalistycznych, np. ADAM [http://Adam.ac.uk] lub witrynach korporacji. Stopień rozbudowy tych schematów jest bardzo zróżnicowany. Powszechne jest alfabetyczne porządkowanie grup tematycznych na każdym szczeblu podziału. Dla układów kategorii charakterystyczna jest także polipozycyjność polegająca na powtarzaniu tych samych grup tematycznych, często wraz z całą dalszą rozbudową, w różnych miejscach układu kategorialnego.
1.3 Listy relacyjne
Najbardziej złożone modele organizacyjne zawiera klasa zwana ogólnie listami relacyjnymi. Należą doń m.in.: tezaurusy[15] i ontologie informatyczne. Wiele tezaurusów wykorzystywanych w środowisku sieciowym to słowniki opracowane na ogół dla potrzeb szczegółowych dyscyplin i obszarów działalności praktycznej. Zakres wykorzystania tezaurusów w Sieci stale się rozszerza. Wiele powstających obecnie tezaurusów nie spełnia norm, narusza obowiązujące standardy, czasami w ogóle nie są to tezaurusy, a proste listy alfabetyczne słów kluczowych. Zwykle jest to rezultat powierzania projektowania słowników (tezaurusów) osobom, które nie mają koniecznej wiedzy i umiejętności. Tezaurus to rodzaj kontrolowanego słownika, w którym terminy są uporządkowane w sposób pokazujący związki, np. hierarchiczne czy skojarzeniowe. Hasła są ponadto oznaczone jako preferowane i niepreferowane (dla kontroli tzw. synonimów wyszukiwawczych). Tezaurusy zazwyczaj zawierają też uwagi dotyczące zakresu, sposobu posługiwania się deskryptorami i inne użyteczne informacje. Wiele tezaurusów dostępnych jest na stronie internetowej Getty Museum, zaś Traugott Koch opracował List of controlled vocabularies, thesauri and classification systems available in the WWW[16].
W ostatnich latach intensywnie rozwija się nurt badań i zastosowań praktycznych tzw. ontologii. Ontologia jest rodzajem opisu pojęć i relacji, które mają być rozpoznawalne dla programów komputerowych. Inaczej mówiąc, ontologię można zdefiniować jako zbiór sformalizowanych stwierdzeń zapisanych na przykład w RDF, definiujący relacje pomiędzy pojęciami oraz wyznaczający reguły wnioskowania. Istnieje coraz więcej semantycznie bogatych sposobów podejścia do modelowania ontologii. Komputery są w stanie (lub raczej będą w stanie) rozumieć semantyczną zawartość dokumentów internetowych, odwołując się do ontologii, do których odnoszą się występujące w nich pojęcia. Zdaje się, że znaczenie ontologii w systemach zarządzania wiedzą i w przyszłej Sieci Semantycznej będzie rosnąć. Ontologie już dziś mają zastosowanie np. w handlu elektronicznym do opisu produktów i usług czy w muzealnictwie (do opisu organizacji cyfrowych zbiorów muzealnych).
Na marginesie chciałabym wspomnieć, że rzeczywiste możliwości Sieci Semantycznej ujawnią się dopiero wtedy, gdy powstanie dostatecznie dużo programów potrafiących zbierać informacje z różnych źródeł internetowych, przetwarzać je, a otrzymane wyniki wymieniać między sobą. Skuteczność tego typu programów, zwanych agentami, będzie wzrastać wraz ze zwiększaniem się liczby witryn przystosowanych do odczytywania przez komputer i automatycznych serwisów (w tym innych agentów). Za pomocą algorytmów agent zbiera także informacje o przyzwyczajeniach i preferencjach użytkownika, stając się tym bardziej użyteczny, im częściej jest używany. Technologia agentów daje bibliotekom pewne interesujące możliwości na przyszłość. Oczywistym zastosowaniem dla agenta jest zwykłe przeszukiwanie Internetu. W porównaniu z wyszukiwarką internetową agent wypada korzystnie - może np. nie ograniczać poszukiwań do Webu, używać kontrolowanych słowników do bardziej inteligentnego przeszukiwania stron WWW, przechowywać w pamięci informacje na temat wcześniejszych poszukiwań zakończonych powodzeniem, może aktualizować swoją wiedzę i znajdować konkretne dokumenty nawet, jeśli w trakcie zostały one przeniesione w inne miejsce, przeszukiwać Internet ciągle i automatycznie w czasie, kiedy nie jest wykorzystywany do podstawowych zadań, może informować użytkownika o nowych informacjach, które potencjalnie zainteresowałyby go, oraz posiadać pamięć sposobu, w jaki użytkownik wykorzystał wcześniej wyszukane zasoby.
Zakończenie
Istnienie Internetu oznacza, że i indywidualni użytkownicy, i biblioteki mają dostęp do stale rosnących zasobów informacji cyfrowej. Bibliotekarze muszą wypracować sposoby udzielania użytkownikom wsparcia w wyszukiwaniu potrzebnych im informacji. Idea społeczeństwa opartego na wiedzy, kształcenie ustawiczne, rosnąca tendencja do robienia zakupów w Sieci, do kontaktowania się z władzami za pomocą środków elektronicznych itd. sprawiają, że dostęp do informacji, w tym umiejętność jej odszukania, selekcji i oceny, stają się coraz ważniejsze dla wszystkich ludzi. Wyszukiwanie informacji i jej opracowanie są procesami wzajemnie uwarunkowanymi. Jeżeli jakiś obiekt zostanie metodycznie opisany, to urządzenie o analogicznym, metodycznym mechanizmie wyszukiwania ma szanse go odnaleźć. Niepowtarzalne identyfikatory (jak URL czy DOI) stanowią tylko częściowe rozwiązania. Jeśli użytkownicy mają mieć możliwość skutecznego wyszukiwania w zbiorach rozproszonych, to wartości elementów metadanych opisujących obiekty i ich zawartość muszą być nadawane w sposób spójny w oparciu o jakiś schemat kodowania czy słownik kontrolowany. Języki o kontrolowanym słownictwie (czy jak częściej się je nazywa w kontekście Internetu: słowniki kontrolowane) są (powinny być) narzędziem dopełniającym słowa kluczowe. Pewnie jeszcze kilka lat temu napisałabym, że to słowa kluczowe uzupełniają wyszukiwanie z użyciem słownictwa kontrolowanego. Dziś najwłaściwsze wydaje mi się sformułowanie, że słowa kluczowe i słownictwo kontrolowane wzajemnie się uzupełniają, dopełniają, innymi słowy, są komplementarne. Języki o kontrolowanym słownictwie mają równie wiele zalet, co i mankamentów. Słowa kluczowe także, choć są to inne wady i inne zalety. Nieco żartobliwie można byłoby powiedzieć, że z językami o kontrolowanym słownictwie i ze słowami kluczowymi jest jak z demokracją. Porównujemy je, usiłujemy udowodnić (niekiedy na siłę) wyższość jednych nad drugimi, krytykujemy zawzięcie, po czym stosujemy w praktyce i nie dlatego, że są tak dobre, ale dlatego, że w tym momencie nie ma niczego lepszego. Być może przyszłość należy do inteligentnych maszyn zdolnych do reakcji podobnej do ludzkiej. Ale czekając z nadzieją (i trochę, przynajmniej ja, z obawą) na to, co przyniesie przyszłość, musimy zacząć lepiej poruszać się w tej rzeczywistości, która już jest nam dana.
Przypisy:
[1] Wyszukiwarki są postrzegane jako element centralny w technologii sieciowej, w jakimś sensie symbolizują koło ratunkowe rzucone tonącemu w oceanie informacji, ucieleśniają nadzieję, że problem, który stworzyła technologia komputerowa, przez tę technologię zostanie rozwiązany. Ponieważ wyszukiwarki (pomimo gigantycznie dużego pola wyszukiwawczego) indeksują jedynie niewielką część stron internetowych, stworzono metawyszukiwarki, które jednocześnie obsługują kilka wyszukiwarek. Aby zwiększyć liczbę relewantnych trafień, opracowano nowe koncepcje wyszukiwania. Rankingi tworzone na podstawie częstości występowania terminu na stronie, zostały wzbogacone lub zastąpione algorytmami odwołującymi się do analizy tzw. linków, które do danej strony odsyłają. Inna technologia wyszukiwania powstała w Direct Hit. Wyszukiwarka ta wykrywa szczególnie często wywoływane przez użytkowników strony, analizując przy tym, które słowa kluczowe rzeczywiście wywołały dany adres. Jak łatwo się domyśleć, wiąże się z tym niebezpieczeństwo coraz częstszego trafiania na już znane strony, zaś strony nowe są „odkrywane” nie bez trudności. Z kolei wyszukiwarka Ask Jeeves sama zadaje pytanie po otrzymaniu niejasnych dla siebie danych. Projekt Ask Jeeves powstał na bazie siedmiu milionów dokładnie sformułowanych pytań zadanych innym serwisom wyszukiwawczym; jest to wyszukiwarka ucząca się, stale rozbudowująca swoją bazę danych, badająca związki między słowami kluczowymi, dzięki temu może potem oferować propozycje trafień, nawet kiedy wprowadzone przez użytkownika słowo nie występuje na stronie. Inne z kolei zalety ma Northern Light, którego mechanizm przeszukane strony porządkuje w działy i poddziały. Szereg wyszukiwarek utrzymuje w tajemnicy stosowane przez siebie metody indeksowania i rankingu lub stale je zmienia m.in. po to, żeby uniemożliwić dostanie się na pierwsze miejsca listy dzięki trikom. Z drugiej strony w USA popularna jest wyszukiwarka Go To, gdzie właściciele stron mogą zakupić określoną pozycję w wyszukiwaniu. W Internecie mają miejsce liczne próby wyjścia naprzeciw zalewowi informacji. Trzeba jednak stwierdzić, że nadal wyszukiwanie jest w dużym stopniu intuicyjne. W tym przypadku wyraźnie znajdujemy się jeszcze na początku drogi, by nie rzec, w epoce elektronicznego kamienia łupanego. [2] Uczciwość wymaga zwrócenia uwagi, że w przypadku serwisów, tworzonych „ręcznie” przez zespół redaktorów, trzeba się liczyć z ograniczoną objętością takiej bazy i stosunkowo wysokimi kosztami jej tworzenia. [3] W tym miejscu uzasadniona wydaje się próba określenia, czym jest bramka tematyczna a czym portal. Rozróżnienie jest nieostre. Zazwyczaj brama składa się z zestawów zaopatrzonych w przypisy linków do innych stron, które zostały już sprawdzone przez jej twórców. Portale na ogół mają na celu, oprócz dostarczania użytkownikom zestawów linków, także dostarczanie usług. Mogą na przykład oferować możliwość dokonywania różnych transakcji, zakupów on-line itp. Mogą także wspomagać zintegrowane przeszukiwanie zawartości stron, do których zamieszczają linki. [4] Wiedząc, że jakość materiałów dostępnych w Sieci jest ogromnie zróżnicowana, należy zwracać uwagę na wiarygodność znalezionych źródeł, w tym także bramek tematycznych. Jednym z ważniejszych kryteriów oceny, jakie możemy w tym przypadku wykorzystać, jest reputacja i autorytet organizacji opracowującej materiały, tworzącej bramkę. Dlatego należy szukać przewodników po źródłach internetowych opracowywanych przez stowarzyszenia naukowe i profesjonalne, biblioteki naukowe i inne organizacje cieszące się zaufaniem społecznym. Organizacje komercyjne także tworzą bramki, przy czym zawsze należałoby sprawdzić, jakie są relacje pomiędzy tymi organizacjami a miejscami w Sieci, które są rekomendowane przez redaktorów, szczególnie jeśli firma czerpie profity z reklam. Generalnie jednak, prawdopodobieństwo dotarcia poprzez bramkę do materiałów o odpowiedniej jakości jest wyższe niż w przypadku korzystania z wyszukiwarek. [5] W literaturze przedmiotu od jakiegos czasu częściej stosowany jest termin systemy organizacji wiedzy czy organizacja wiedzy (nie informacji). Termin system organizacji wiedzy oznacza różnego rodzaju schematy porządkowania informacji ułatwiające zarządzanie wiedzą [SOSIŃSKA-KALATA, B. Systemy organizacji wiedzy w środowisku sieciowym. In SOSIŃSKA-KALATA, B., PRZASTEK-SAMOKOWA, M. (red.) Od informacji naukowej do technologii społeczeństwa informacyjnego. Warszawa: Wydaw. SBP, 2005, s. 142]. Inaczej mówiąc, systemy organizacji wiedzy są uporządkowanymi zbiorami wyrażeń reprezentujących pojęcia, które składają się na pewną semantyczna wiedzę dziedzinową [Tamże, s. 146]. W przytoczonych objaśnieniach widać wpływ koncepcji wypracowanych na gruncie teorii zarządzania, w tym tzw. zarządzania wiedzą, gdzie przez wiedzę na ogół rozumie się płynne połączenie doświadczeń, wartości, powiązanych z kontekstem informacji oraz fachowej intuicji. Pytanie o strukturę wiedzy jest bezsprzecznie najwyższej wagi, choć zarazem trudne do rozstrzygnięcia. Nie wdając się w dyskusję terminologiczną, w artykule będę się posługiwać terminem organizacja informacji (system organizacji informacji), traktując go synonimicznie wobec terminu organizacji wiedzy (system organizacji wiedzy). [6] Na początek można się posłużyć opracowanym przez Lidię Derfert-Wolf wykazem: DERFERT-WOLF, L. Serwisy tematyczne o kontrolowanej jakości w Internecie - subject gateways. Wykaz. In Biuletyn EBIB [on-line]. 2004 nr 6 (57) [dostęp 7 września 2006]. Dostępny w World Wide Web: http://ebib.oss.wroc.pl/2004/57/wykaz.php. [7] ROSENFELD, L., MORVILLE, P. Architektura informacji w serwisach internetowych. Gliwice: Wydaw. Helion, 2003. ISBN 83-7361-003-0. [8] Tamże, s. 207. [9] SOSIŃSKA-KALATA, B. Systemy organizacji wiedzy w środowisku sieciowym…, s. 149. [10] Przez glosariusz lub słownik specjalistyczny rozumie się tu listę terminów należących do wąskiej specjalności, zwykle z ich definicjami. Terminy mogą pochodzić z pewnego obszaru tematycznego (dziedziny) lub z określonego dzieła (zbioru dzieł). [11] Nazwę słownik odnosi się najczęściej do alfabetycznych wykazów wyrażeń wraz z ich definicjami. Zwykle zakres słowników jest ogólniejszy od zakresu glosariuszy. Często zawarte w nich są informacje o etymologii wyrażeń, wariantach ortograficznych i morfologicznych. W słownikach często wskazuje się też synonimy, a poprzez definicje znaczenie, a także wyrażenia o znaczeniu pokrewnym. Słowniki nie umożliwiają jednak bezpośredniej prezentacji hierarchicznej systemu leksykalnego i semantycznego zarejestrowanych wyrażeń. [12] Warto w tym miejscu przypomnieć, że w przeszłości systemy haseł przedmiotowych były nazywane klasyfikacjami przedmiotowymi (w odróżnieniu od klasyfikacji aspektowych). [13] WOŹNIAK, J. Kategoryzacja: studium z teorii języków informacyjno-wyszukiwawczych. Warszawa: Wydaw. SBP, 2000. ISBN 83-87629-32-4. [14] Dokonując dużego uproszczenia, można powiedzieć, że podejście klasyczne do kategoryzacji opiera się na czterech podstawowych założeniach: a) kategorie definiowane są za pomocą cech koniecznych i wystarczających; b) cechy są binarne; c) kategorie mają wyraźne granice; d) wszystkie elementy danej kategorii są równorzędne. [15] WOŹNIAK-KASPEREK, J. Podstawy budowy tezaurusa: poradnik. Warszawa: Wydaw. SBP, 2006. ISBN 83-89316-53-6. [16] KOCH, T. List of controlled vocabularies, thesauri and classification systems available in the WWW. [dostęp 7 września 2006]. Dostępny w World Wide Web:
http://www.lub.lu.se/metadata/subject-help.html.
| |