Nr 7/2006 (77), Technologie informacyjne. Artykuł

Veslava Osińska
Instytut Informacji Naukowej i Bibliologii
Uniwersytetu Mikołaja Kopernika w Toruniu

Przybliżenie semantyczne w wizualizacji informacji w Internecie i bibliotekach cyfrowych

W obliczu nadmiaru informacji w Internecie, w różnym stopniu przydatnej oraz czytelnej dla zainteresowanego użytkownika, priorytetowe znaczenie ma skuteczna jej wizualizacja. Takie działania miałyby na celu powiększenie udostępnianej przestrzeni percepcyjnej i zdolności kognitywnych użytkownika, a także umożliwienie mu interakcji z programem. Badania nad sztuczną inteligencją i zastosowanie najnowszych odkryć w kognitywistyce^[1] są wsparciem dla powstających projektów inteligentnej wizualizacji.

Proces wizualizacji wiąże dwa najpotężniejsze systemy przetwarzania informacji - ludzki mózg oraz współczesny komputer - zaznacza wieloletni badacz wizualizacji danych i pracownik naukowy w centrum zaawansowanych technologii USA Mitre Corporation, Nahum D. Gershon.^[2] Efektywny interfejs użytkownika ma wykonywać realizację takich zadań, jak: obserwacja, wyszukiwanie, nawigacja, rozpoznanie, filtrowanie, odkrywanie, rozumienie oraz interakcja z dużymi zbiorami danych. Badania nad wizualizacją danych i informacji wyrosły z wysiłków naukowców skierowanych na interpretację danych, gromadzonych przez urządzenia pomiarowe lub wygenerowanych w trakcie symulacji komputerowych. Aktualne badania zostały podjęte wewnątrz organizacji Visualization Community pracującej nad rozwojem metod wizualizacji informacji. Dotyczą one bezpośrednio takich aspektów, jak: wizualizacja danych naukowych, dialog człowiek-komputer, analiza danych, data mining, wyobraźnia i grafika. Wizualizacja informacji jest obecnie zaliczana jako osobna dziedzina grafiki komputerowej wykorzystująca najnowsze osiągnięcia nauk biologicznych oraz inżynierii. W sieci i literaturze masowo stosuje się skrót InfoVis pochodzący od słów Information Visualization; pod taka nazwą odbywają się coroczne konferencje i sympozja pod patronatem IEEE.^[3]

Realia gwałtownie rosnącego napływu informacji i jej powszechnej dostępności, opracowywanie coraz to nowych rodzajów oprogramowania, taniejący sprzęt elektroniczny - to wszystko przyczynia do powstania nowych klas informacji oraz kształtujących się potrzeb ich analizy i przetwarzania. W związku z tym rozwój koncepcji w projektowaniu interfejsów graficznych nabrał szybkiego tempa, zaczynając od 2000 r.

W myśl definicji , wizualizacja informacji jest wizualną prezentacją przestrzeni informacyjnych i struktur w celu ułatwienia ich szybkiego przyswojenia i zrozumienia. W rzeczywistej (nie abstrakcyjnej) reprezentacji informacji wykorzystywana jest wiedza o naturalnej zdolności człowieka do szybkiego rozpoznawania obrazów. Jednak nie każdą informację da się sprowadzić do jej bezpośredniej interpretacji w świecie fizycznym.

W przewidywaniach Berners'a-Lee, pomysłodawcy i twórcy sieci WWW, kolejnym etapem Internetu - semantycznego Weba będzie zapewnienie ludziom dostępnej i czytelnej informacji, która będzie rozumiana i przetwarzana przez maszyny, co powinno umożliwić pełniejszą współpracę człowieka z komputerem. Przeszukiwanie współczesnych rozproszonych zasobów sieciowych pozostaje dla przeciętnego użytkownika wciąż ograniczone na skutek wykorzystywania w rozproszonych bazach danych niejednakowych systemów indeksujących, katalogujących, dokumentów wielojęzykowych i multimedialnych o różnych formatach. Dodatkowo problemy stwarza niekonsekwencja słownikowa pomiędzy zapytaniem użytkownika a prezentowanymi danymi; przykładem mogą być słowa-synonimy. Semantyczny Web organizowany w oparciu o ontologie toruje drogę do semantycznego wyszukiwania niejednorodnych danych w bibliotekach i repozytoriach cyfrowych. Lokalne bazy danych tworzone przez mniejsze społeczności i organizacje przy użyciu specyficznych dla ich domeny tezaurusów i słowników semantycznych byłyby łączone ze sobą w "centralne bazy" z zastosowaniem semantycznych translatorów, układanych przez grupy specjalistów dziedzinowych. W konsekwencji automatyczne generowanie, mapowanie i ewolucja ontologii stały się dominującą treścią badań sztucznej inteligencji (SI).

W kierunku semantyki zmierzają również prace badawcze nad wizualizacją przestrzeni informacyjnej (Information Space) w aplikacjach i serwisach sieciowych. Za pomocą różnorodnych algorytmów statystycznych i data/Web mining próbuje się określić najistotniejsze relacje w strukturach semantycznych (przykład będzie przytoczony poniżej). Odkrywane zależności pomiędzy ludzką percepcją a semantycznym wyszukiwaniem i przeglądaniem informacji (Semantic Information Retrival and Browning) jest przydatne w projektowaniu interfejsów wizualizacyjnych.

W artykule zostaną przedstawione wyróżniane typy informacji wraz z przykładami prezentacji ich prototypów przestrzeni informacyjnej. Informację, którą się ludzie wymieniają, można podzielić na następujące typy ze względu na zadania wizualizacji:

Liniowa: listy alfabetyczne, chronologiczne, tabele, kody programów,
Hierarchiczna: drzewa klasyfikacji, dendrogramy^[4],
Sieci: topologie sieciowe, struktury grafów^[5], sieci semantyczne,
Wielowymiarowa: metadane, takie jak: typ, rozmiar, autor dokumentu itp.,
Przestrzenie wektorowe: reprezentacja dokumentów za pomocą macierzy liczb w zagadnieniach wyszukiwania informacji (Information Retrival),
Przestrzenne: mapy topologiczne, obrazy 2D lub 3D, modele w systemach CAD^[6].

Informacja liniowa jest najprostszym typem informacji składającej się z sekwencji liczb i cyfr. Dane w postaci różnego rodzaju list i tabel, powszechne w historii piśmienniczej i obliczeniowej ludzkiej działalności, znane są jeszcze z czasów starożytnych. Znaki alfanumeryczne trudno jest przedstawić w innej formie niż tekst, np. graficznej. Nie przeszkadzało to, aby w latach 90. inżynierowie takich koncernów jak Xerox PARC albo AT&T Bell Labs poszukiwali nowych, na miarę ówczesnego rozwoju technologicznego, rozwiązań wizualizacji danych liniowych. Wartości liczbowe w tabelach zastąpili oni odpowiednią ilością kolorowych pikseli, w ten sposób powstawały kolorowe spektra, przedstawiające zależności co najwyżej dwóch wartości. Tu dobrym przykładem będzie przypomnienie sobie, jak wyglądają wyniki statystyk i sondaży ankiet, masowo umieszczanych na głównych stronach różnych portali WWW.

Informacja hierarchiczna jest najliczniejszą, wytypowaną grupą danych, ponieważ większość współczesnej informacji interpretowana jest poprzez struktury hierarchiczne. Hierarchia jest obecna w organizacji systemów katalogów i plików, bibliotecznych systemach klasyfikacji, danych genealogicznych, a również w definicjach klas języków programowania zorientowanego obiektowo.

Na początku lat 90. szybkość procesorów nie nadążała za dynamiką zwiększania zasobów na twardych dyskach. Dlatego w odpowiedzi na ten problem szukano nowych form wizualizacji drzew katalogowych dla systemów Unixowych (należy wyjaśnić, iż były one pierwotne w odniesieniu do Windows). Drzewa struktur hierarchicznych przedstawiano nie w postaci gałęzi, lecz map - topologię jednowymiarową poszerzono do dwóch wymiarów. Generację oprogramowania służącego do takich zadań nazwano TreeMap.^[7] Idea autorstwa Briana Johnsona i Bena Shneidermana^[8] opierała się na zagnieżdżaniu prostokątów mniejszymi prostokątami o polach proporcjonalnych do pojemności zasobów folderów. Struktura ułożenia wskazywała poziomy hierarchii (rys. 1); takim sposobem udało się im przedstawić graficznie nawet 5000 węzłów.

Rys. 1. Strategia prostokątna wizualizacji katalogów na dysku twardym w programie TreeMaps.^[8]

Innym ciekawym pomysłem na wizualizacje drzew katalogowych jest program pod nazwą SunBurst directory visualizer autorstwa Johna Stasko.^[9] Schemat hierarchii tworzony jest za pomocą koncentrycznych pierścieni. Katalog główny znajduje się w środkowym kole mapy, segmenty kolejnych kół reprezentują podkatalogi z ich zawartością. Takie cechy jak ogólna pojemność katalogu i typ pliku identyfikowane są odpowiednio za pomocą kąta segmentu i koloru (rys. 2).

Rys. 2. Strategia pierścieniowa wizualizacji katalogów w SunBurst directory visualizer.

Korporacja OCLC (On-line Computer Library Center) nadzorująca rozwój klasyfikacji Dewey'a udostępniła na swoim portalu eksperymentalne oprogramowanie pod nazwą WebBrowser, które umożliwia użytkownikom wyszukiwanie i przeglądanie zasobów bibliotecznych zorganizowanych zgodnie z klasyfikacją KDD. W tej aplikacji używa się hierarchii tabel do reprezentacji trzech górnych poziomów klasyfikacji. Rys. 3 ilustruje rzut ekranowy programu w dopowiedzi na zapytanie "Information Technology". Informacja o liczebności zbiorów w każdej z klas i podklas przekazywana jest za pomocą kolorów.

Rys. 3. Interfejs aplikacji on-line WebBrowser do przeszukiwania zasobów bibliotecznych. Kolorowe boksy tabel są odpowiednikami klas i podklas trzech poziomów klasyfikacji KDD.

Biblioteki są zainteresowane badaniami form organizacji zbiorów i chętnie przystępują do wspólnych projektów i testów nad wizualizacją zasobów nowymi metodami, np. w "przestrzeni-c", jak w projekcie Scholastica^[10] przy wsparciu oprogramowania VisualNet^[11], zainicjowanym w Belmont Abbey College, USA w 2001 r. Przestrzeń-c jest tu definiowana jako semantyczna przestrzeń słów kluczowych, wprowadzenie której znacznie przyspieszyło wyszukiwanie relewantnych dokumentów. Podobnie jak w typowym systemie bibliotecznym, w programie VisualNet kategorie i podkategorie są włączone w diagramopodobne mapy (diagrammatic maps). Elementy na "półkach" (rys. 4) są ułożone według klasyfikacji KBK, wielkość ich wskazuje na ilość zasobów w danej klasie, kolor i kształt są identyfikowane z formatem dokumentu, a więc użytkownik może rozpoznać książki drukowane, e-booki, strony WWW oraz pliki multimedialne.

Rys. 4. Zastosowanie programu VisualNet do przeglądania zasobów bibliotecznych w projekcie Scholastica. Kolorowe prostokąty na metaforycznych "regałach bibliotecznych" poklasyfikowane są tematycznie według klasyfikacji KBK. Wielkość ich oznacza ilość zbiorów w danej klasie (po lewej). Po prawej - po zagłębieniu się w klasę "Social Sciences" i podaniu słowa "City" mapa relewantnych dokumentów obrysowywana jest w czerwonym prostokącie. Format pliku oznakowany jest różnym kształtem.

Pomysłem na rozszerzenie zakresu przestrzeni eksploracyjnej, ciągle ograniczonej oknem monitora, była reprezentacja hierarchicznych struktur w przestrzeni hiperbolicznej. Pierwszymi aplikacjami, które wykorzystały technikę "fisheye" (rybie oko) były przeglądarki hiperboliczne (rys. 5). Przestrzeń Euklidesową^[12] zastępuje się hiperboliczną, którą rzutuje się na kolisty obszar widzenia. Ten mechanizm zapewnia więcej miejsca na wizualizację hierarchii (obwód koła ronie wykładniczo z promieniem, co oznacza, że ze wzrostem odległości mamy eksponencjalne powiększenie przestrzeni).

Rys. 5. Hiperboliczny browser H3.

Technika "fisheye" występuje w literaturze naukowej pod nazwą "ognisko+kontekst" (focus+context), ponieważ na takich mapach można bezustannie zmieniać ognisko obserwacji.

Informacja sieci utożsamiana jest przede wszystkim z graficznymi prezentacjami topologii sieciowych, schematów logicznych sieci i okablowania, instalacji elektrycznych itp. Jeśli sięgnąć dalej, do skali naszej planety, to takie dane opisują infrastrukturę globalnej sieci komunikacyjnej tworzonej przez szybkie sieci światłowodowe, kable morskie oraz satelity telekomunikacyjne.

Rys. 6. Mapa infrastruktury komunikacji kablowej i satelitarnej,
opublikowana przez TeleGeography, Inc. (http://www.telegeography.com/products/index.php)

Okazuje się, że oprócz danych geograficznych, wiele domen rzeczywistości można przedstawić za pomocą węzłów i wektorów, czyli grafów: hiperłącza w dokumentach WWW, mapy powiązań wyrazów bliskoznacznych w tezaurusach, relacje pomiędzy tabelami w bazach danych, algorytmy, procesy technologiczne i logistyczne, struktury organizacyjne firm, scenariusze lekcyjne itp.

Rozwiązania map grafopodobnych wykorzystują interfejsy programów edukacyjnych. Oprogramowanie Visual Thesaurus (http://www.visualthesaurus.com) jest zintegrowanym słownikiem i tezaurusem w zakresie języka angielskiego. Interaktywny interfejs pozwala użytkownikowi na naukę poprzez eksplorację wyników zapytania. Na rys. 7 przedstawiony jest zrzut ekranowy wersji on-line programu. Diagram przedstawia mapę powiązań wyrazów bliskoznacznych dla słowa "exercise". Kolory kółek czerwony, niebieski i żółty są zarezerwowane do oznakowania rzeczowników, czasowników i przymiotników odpowiednio. Linie ciągłe łączą wyrazy - synonimy. Według zamysłu autorów, studenci i uczniowie za pomocą tego narzędzia mogą nie tylko nauczyć się nowych słów i pojęć, lecz ulepszyć swoje umiejętności czytania, pisania i komunikacji.

osinska5 (12K)

Rys. 7. Mapa tezaurusa dla wyrazu "exercise" w programie VisualThesaurus autorstwa firmy ThinkMap.

Informacja wielowymiarowa stanowi najodpowiedniejszy zasób danych dla badań nad strukturami semantycznymi. Metadane niosą informację o danych dokumentu i jednocześnie zawarte są w samym dokumencie. Według standardu Dublin Core do metadanych należą informacje o tytule, autorze, wydawcy dokumentu, słowach kluczowych, opisie, języku itp. Dokumenty WWW przechowują te parametry w polach meta, opisywanych za pomocą znaczników .

Z chwilą sukcesu Google firmy komercyjne intensywnie rozwijające oprogramowanie wizualizacyjne - Visualization Companies, takie jak: KartOO, Groxis, Medialab Solutions, The Brain Technologies, Vivisimo, w celu pozyskania nowych klientów, zaczęły profilować swoje produkty w kierunku integracji zadań wyszukiwania i nawigacji. W zależności od koncepcji autorów i zastosowanych metafor wizualizacji użytkownik ma zapoznać się nie z listą rankingową, lecz z wielowymiarową przestrzenią nawigacyjną. Zgodnie z założeniem większej swobody w nawigacji, powinien on również mieć możliwość kolekcjonowania wyselekcjonowanych elementów. Tu można przytoczyć analogię do koszyka zakupów w sklepie internetowym. W takich wielowymiarowych mapach odrębne znaczenie przyjmują kolor, kształt, rozmiar, pozycja oraz połączenia obiektów.

Firma Groxis, działająca od 2001 r. zaprojektowała wyszukiwarkę z graficznym interfejsem Grokker(http://www.grokker.com/), której w mediach przepowiadano konkurencyjną przyszłość wobec Google. Aplikacja ta korzysta z baz danych serwisów Yahoo, ACM Digital Library i/lub Amazon Books. Kolorowe koła wewnątrz innych kół (mogą to być też kwadraty) są odpowiednikami klas i podklas (rys. 8). W polach objaśnienia przy najechaniu myszką wyświetlane są metadane dla wybranego zasobu, takie jak tytuł, autor, czas utworzenia itp. Użytkownicy mogą wyniki posortować według dziedziny oraz zachować je do późniejszego użytku. Zastosowanie filtrów powoduje zawężenie wyników. Ciekawostką jest to, że Grokker jest w stanie pokategoryzować pliki z naszego dysku według zawartości, pomijając informację o przynależności do folderów.

osinska6 (32K)

Rys. 8. Wygenerowana mapa skojarzonych tematycznie obszarów
z wyrażeniem "Information Technology" w wyszukiwarce Grokker.

Innym przykładem wyszukiwarki nowej generacji jest AquaBrowser Library (http://aqua.queenslibrary.org/), zaprojektowana przez Medialab w 2000 r. To nowoczesne narzędzie do nawigacji wyników wyszukiwania zaprojektowano na potrzeby bibliotek i jest wykorzystywane przez ponad 40% bibliotek publicznych w Holandii oraz przez bibliotekę Narodową w Singapurze. Na rys. 9 została zilustrowana wygenerowana mapa obszarów tematycznych, odwołujących się do terminu w zapytaniu "Information Technology".

osinska7 (36K)

Rys. 9. Wygenerowane mapy skojarzonych tematycznie obszarów
z wyrażeniem "Information Technology" w wyszukiwarce AquaBrowser.

Przy modulowaniu reprezentacji semantycznych w zadaniach filtrowania i wyszukiwania informacji wykorzystywany jest wektorowy model przestrzeni informacji (Vector Space Modelling - VRM). Zagadnienia informacji wielowymiarowej w oparciu o przestrzenie wektorowe opisuje semantyka wektorowa (vectorial semantics). Dokumenty w języku naturalnym są przedstawiane w sposób formalny przy użyciu wektorów w przestrzeni wielowymiarowej.

Procedurę tworzenia modelu przestrzeni wektorowej można podzielić na trzy etapy.^[13] Pierwszym jest indeksowanie dokumentów i wyłonienie słów oddających treść dokumentu. Na drugim etapie zachodzi ważenie słów indeksowanych, czyli określenie, w jakim stopniu termin jest ważny dla dokumentu w odniesieniu do zapytania. Na koniec ustalana jest pozycja rankingowa dokumentu na liście odpowiedzi.

Jednym z wariantów modeli przestrzeni wektorowej jest metoda matematyczna zwana Latent Semantic Analysis (LSA - analiza ukrytych grup semantycznych), opatentowana w 1990 r. przez S. Deerwester'a, S. Dumas'a, G. Furnas'a i T. Landauer'a. LSA zakłada, że zbiór dokumentów składa się ze znanej ilości grup (przyszłych klastrów^[14]). Mimo iż ilość grup jest znana (założona z góry) dla konkretnego wykonania programu, to cechy klasyfikujące poszczególne elementy są ukryte (nieznane). Celem metody LSA jest znalezienie dokumentów, które nie koniecznie mają ten sam zadany zbiór słów, ale są na ten sam temat (patrz opis algorytmu LSA umieszczony w Dodatku).

Na Uniwersytecie w Indiana, w School of Library and Information Science profesor Katy Börner z zespołem od 2000 r. prowadzi zaawansowane badania nad interfejsami wizualizacji dla bibliotek cyfrowych. Stworzyli oni aplikację pod nazwą LVis - Digital Library Visualiser^[15] wykorzystującą analizę LSA, która służy do wizualizacji semantycznej struktury wyników wyszukiwania zasobów w bibliotekach cyfrowych. Algorytmy klasteryzacji LSA zastosowali oni do kolekcji obrazów, przy czym jako dane do analizy służyły ich tekstowe opisy. Wyniki potwierdziły, iż zastosowana metoda jest właściwa do analizy cyfrowych obrazów cechujących się kompletnym opisem metadanych. Warto jest zapoznać się z internetową stroną pod nazwą InfoVis CyberInfrastructure (IVC)^[16] autorstwa K. Börner; strona ta jest przydatna zarówno w edukacji, jak i badaniach naukowych nad wizualizacją. Udostępnia ona pakiety oprogramowania ułatwiające procesy eksploracji, modyfikacji, "kopania danych" (data mining) i wizualizacji informacji. Interesującym pomysłem K. Börner było również stworzenie na użytek programistów i analityków wspólnej składnicy modułów programowych (Information Visualization Repository)^[16] zapewniającej integrację algorytmów autorstwa różnych badaczy w jednolity interfejs programowy bez narzucania jednakowego typu, struktur i formatu danych.

Podsumowanie

Metody wizualizacji danych ewaluowały od interfejsów programów z minimalną ilością elementów graficznych, wykorzystujące zagnieżdżone drzewa klasyfikacji, tabele oraz wykresy dwuwymiarowe, przez diagramy relacji między dokumentami przy użyciu takich abstrakcyjnych kształtów jak koła, kwadraty, linie oraz łącza, do przeglądarek hiperbolicznych i geoprzestrzennych map z włączoną osią czasu.

Próba wyselekcjonowania głównych typów informacji nie oznacza, że nie możemy spotkać w życiu przykładów kombinowanych albo zmieniających typów danych. Ponieważ w świecie zachodzą dynamiczne procesy, a zatem informacja też bezustannie się zmienia, pomiędzy pierwotnie równorzędnymi elementami niosącymi informację też mogą powstawać relacje hierarchiczne. W analizie informacji płynącej z otaczającego nas świata dążymy do sklasyfikowania występujących w rzeczywistości obiektów w grupy - klasy. Czynimy to na podstawie wspólnych ich cech (wygląd, przeznaczenie, pochodzenie itp.) lub zachowań (co obiekt może wykonać?). Obiekty w trakcie poznawania coraz większej ich ilości grupujemy w klasy, a następnie klasy nadrzędne. Dążenie do hierarchizacji elementów informacji jest więc naturalnym objawem, który sygnalizuje potrzebę mapowania przeszukiwanych wyników.

W tym celu możemy użyć przestrzeni semantycznej, aby użytkownicy mogli szybko rozpoznawać je we wzajemnych związkach hierarchicznych.

W artykule dowiedziono, że nowoczesne techniki wizualizacji są skutecznie implementowane w interfejsach aplikacji służących zarówno do przeglądania, nawigacji, wyszukiwania dużych zbiorów niejednorodnych pod względem formatu, struktury i języka danych, jak i zarządzania nimi. Semantyczna reprezentacja rozwiązuje także problemy obecne w lingwistyce: synonimię i polisemię - różnobrzmiące wyrazy oznaczają tę samą ideę oraz jedno słowo ma wiele znaczeń Wyzwaniem dla specjalistów w zakresie wizualizacji informacji pozostaje odkrywanie nowych możliwości wydajnego udostępniania ludziom rozproszonych globalnych zasobów informacyjnych. Równolegle prace nad technikami wizualizacji specjalistycznych danych posuwają się w kierunku poszukiwania nowych, intuicyjnych form metafor w reprezentacji informacji oraz pełniejszej interakcji użytkownika z programem.

Dodatek

Analiza ukrytych grup semantycznych (Latent Semantic Analysis-LSA) LSA konwertuje zbiór dokumentów do postaci macierzy^[17] częstotliwości terminów i dokumentów (Document-term Matrix), która określa występowanie słów, a raczej ich trzonów/tematów (stemmed word) w dokumentach. Zawiera ona w wierszach poszczególne wyrazy ze zbioru, a w kolumnach dokumenty występujące w zbiorze. Elementami tej macierzy są liczby naturalne będące zapisem częstotliwości występowania danego słowa w danym dokumencie - patrz przykład poniżej.

Przykład:

Zbiór składa się z trzech jednozdaniowych dokumentów:

DOK1 = "Używam edytora tekstu"
DOK2 = "Używam baz danych"
DOK3 = "Piszę tekst w edytorze tekstu"

Wtedy macierz terminów i dokumentów wygląda następująco:

Używam Piszę w edytor/a/ze tekst/u baz danych

DOK1 1 0 0 1 1 0 0

DOK2 1 0 0 0 0 1 1

DOK3 0 1 1 1 2 0 0

Po skonstruowaniu macierzy częstotliwości należy obniżyć jej wymiar, ponieważ jest ona zdecydowanie za duża dla obliczeń komputerowych, "zaszumiona" (niepotrzebnie uwzględnia terminy nieformalne) oraz ze względu na występowanie synonimów. W konsekwencji niektóre wymiary się "łączą":
{(auto), (ciężarówka), (kwiat)} --> {(1.3452 * auto + 0.2828 * ciężarówka), (kwiat)}.

Redukcji wymiarów macierzy dokonuje się poprzez zastosowanie techniki w analizie matematycznej Singular Value Decomposition (SVD - rozkład na wartości osobliwe). W metodzie SVD dzięki prostej strategii można szybko osiągnąć optymalne przybliżenie, używając mniejszych macierzy.

osinska8 (4K)

Rys. 10. Metoda SVD w zastosowaniu do macierzy częstotliwości [opracowanie własne].

Prostokątną macierz częstotliwości X słów i dokumentów o rozmiarze t × d można rozłożyć na iloczyn trzech macierzy: X = T0 × S0 × D0 (rys. 10), gdzie T0 i D0 mają kolumny ortonormalne, S0 jest macierzą diagonalną^[18] i zawiera wartości osobliwe. Wiersze macierzy T0 (lub kolumny macierzy D0) odpowiadają wierszom (kolumnom) macierzy X, ale nowa liczba kolumn m określa rozmiar kwadratowej macierzy S0. Następnym krokiem jest wybranie n "najważniejszych" wymiarów, czyli takich, dla których wartości osobliwe w macierzy S0 są największe. Wybór liczby n jest trudny i krytyczny dla dalszych procesów: liczba ta powinna być wystarczająco duża, aby móc odwzorować całość rzeczywistej struktury danych, lecz na tyle mała, aby wyeliminować szum, błędy i nieistotne szczegóły. W wyniku jest generowany wektor o n wartościach rzeczywistych, tak więc każdy dokument jest reprezentowany.

Przypisy

[1] Tu jako nauki kognitywne (Cognitive Science), czyli nauki o poznaniu.

[2] GERSHON, N. D. et al. Visualization in the Information Highway. In IEEE Visualization [on-line]. 1994 s. 4-7 [dostęp 20 maja 2006]. Dostępny w World Wide Web: http://portal.acm.org.

[3] IEEE (Institute of Electrical and Electronics Engineers) - Instytut Inżynierów Elektryków i Elektroników - jedna z głównych organizacji skupiająca informatyków - praktyków. Ustala standardy konstrukcji urządzeń elektronicznych.

[4] Dendrogram - (od dendryt) diagram w kształcie drzewa ukazujący związki pomiędzy wybranymi elementami na podstawie przyjętego kryterium.

[5] Grafy - w matematyce: struktury składające się z wierzchołków i krawędzi; są wykorzystywane powszechnie w algorytmice.

[6] CAD (Computer Aided Design) - projektowanie wspomagane komputerowo. Programy typu CAD są wykonywania do obliczeń inżynierskich, rysunków konstrukcyjnych, przedstawiania rysowanych elementów w perspektywie itp.

[7] Program w wersji demo jest dostępny pod adresem http://www.cs.umd.edu/hcil/treemap/#download.

[8] SHNEIDERMAN, B. Treemaps for space-constrained visualization of hierarchies. In The Human-Computer Interaction Lab [on-line]. Ostatnia aktualizacja 2005 [dostęp 15 marca 2006]. Dostępny w World Wide Web: http://www.cs.umd.edu/hcil/treemap-history/index.shtml.

[9] STASKO, J. Hierarchies and Trees 2. In HCC Education Digital Library [on-line]. 2005 [dostęp 9 maja 2006]. Dostępny w World Wide Web: http://hcc.cc.gatech.edu/taxonomy/docInfo.php?cat=189&doc=108

[10] BEAGLE, D. Visualizing Keyword Distribution Across Multidisciplinary C-Space. In D-Lib Magazine [on-line]. 2003 vol. 9 nr 6 [dostęp 1 marca 2006]. Dostępny w World Wide Web: http://www.dlib.org/dlib/june03/beagle/06beagle.html

[11] Oprogramowanie to jest produktem firmy Antarctica Systems (http://www.antarcti.ca/). Strona projektu Scholastica jest aktualnie niedostępna.

[12] Przestrzeń trójwymiarowa, prościej ujmując, przestrzeń taka, w której żyjemy.

[13] Vector Space modeling [on-line]. 1999. [dostęp 25 maja 2006]. Dostępny w World Wide Web: http://isp.imm.dtu.dk/thor/projects/multimedia/textmining/node5.html.

[14] Klaster - grupa (klasa) obiektów, które są do siebie podobne pod względem pewnych cech. Klasteryzacja jest jednym z podstawowych zadań DM(Data Mining). DM - w tłumaczeniu "kopanie danych" - jest procesem mającym na celu odkrywania nieznanej dotąd wiedzy, jak na przykład wzorów zachowań, zależności między zdarzeniami.

[15] Opis badań oraz program LVis jest dostępny pod adresem: http://iv.slis.indiana.edu/sw/index.html.

[16] Tamże.

[17] Macierz - prostokątna tablica wielkości, która ma określoną liczbę wierszy i kolumn.

[18] Macierz diagonalna, to macierz kwadratowa, której wszystkie współczynniki leżące poza główną przekątną (diagonalą) są równe zero.

Bibliografia

BÖRNER, K. et al. LVIS-digital Library Visualizer. In CiteSeer. Scientific Literature Digital Library [on-line]. 2000 [dostęp 11 maja 2006]. Dostępny w World Wide Web: http://citeseer.ist.psu.edu/559314.html.
BÖRNER, K. Extracting and Visualizing Semantic structures in Retrieval Results for Browsing. In ACM Digital Library [on-line]. 2000 [dostęp 11 maja 2006]. Dostępny w World Wide Web: http://portal.acm.org/citation.cfm?id=336672&coll=GUIDE&dl=ACM&CFID=15151515&CFTOKEN=6184618
BÖRNER, K. Visual Interfaces for Semantic Information Retrieval and Browsing. In CiteSeer. Scientific Literature Digital Library [on-line]. 2000. [dostęp 29 czerwca 2006]. Dostępny w World Wide Web http://citeseer.ist.psu.edu/571532.html.
DEERWESTER, S. et al. Indexing by Latent Semantic Analysis. In Journal of the Society for Information Science [on-line]. 1990 nr 41(6), s. 391-407. [dostęp 21 maja 2006]. Dostępny w World Wide Web: http://lsi.research.telcordia.com/lsi/papers/JASIS90.pdf.
KEITH, A. Information Visualisation. Tutorial Notes [on-line]. [Graz]: Graz University of Technology 2002 [dostęp 20 maja 2006]. Dostępny w World Wide Web: http://www2.iicm.edu/ivis/ivis.pdf.


	Przybliżenie semantyczne w wizualizacji informacji w Internecie i bibliotekach cyfrowych / Veslava Osińska// W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska. - Nr 7/2006 (77) lipiec. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2006. - Tryb dostępu: http://www.ebib.info/2006/77/osinska.php. - Tyt. z pierwszego ekranu. - ISSN 1507-7187

Veslava Osińska Instytut Informacji Naukowej i Bibliologii Uniwersytetu Mikołaja Kopernika w Toruniu