EBIB Nr 4/2007 (85), Technika i innowacje dla bibliotek. Artykuł sponsorowany Poprzedni artykuNastpny artyku  

 


Helle Lauridsen

Dlaczego warto stosować głębokie indeksowanie?


Proquest

Wyszukiwanie pełnotekstowe, z którym mieliśmy do czynienia do tej pory, pozwalało uzyskać rekordy, które zawierały opisy znajdujące się w nagłówkach rysunków i tabel, ale nie tekst, który był wewnętrzną częścią rysunku lub tabeli (nie powstały przy użyciu znaczników HTML)[1]. Co ważniejsze, wyszukiwania pełnotekstowe, będąc ograniczone do nagłówków rysunków lub tabel, nie mogły być użyte do tworzenia wyszukiwań ukierunkowanych. Wynikiem tradycyjnego wyszukiwania pełnotekstowego dla wyrażenia, np. pobór tlenu było wyodrębnienie ogromnej liczby nieistotnych lub zbyt ogólnych artykułów, ponieważ wyszukiwanie odbywało się na pełnym tekście i cytowaniach.

60 badaczy z dziewięciu organizacji w Europie i Stanach Zjednoczonych wzięło udział we wstępnym badaniu ankietowym dotyczącym pojęcia „głębokie indeksowanie”. Zarówno ilościowe, jak i jakościowe dane ze wstępnych i końcowych kwestionariuszy, obserwacji oraz dzienników strukturalnych dostarczają wielu informacji, na podstawie których można formułować wnioski. Ogólne wrażenie, jakie odnieśli niemal wszyscy uczestnicy, było pozytywne. W nowej metodzie dostrzegli oni szansę oszczędzania czasu, szczególnie wówczas, gdy tabele i rysunki potrzebne są natychmiast oraz gdy poszukują oni pełnych, ważnych artykułów, ponieważ dostęp do tabel i rysunków podczas wyszukiwania będzie wsparty oceną istotności. Obszerne zbiory wyników ze zbyt dużą liczbą nieistotnych elementów w dalszym ciągu pozostają problemem często wskazywanym przez badaczy. Postrzegają oni indeksowanie tabel i rysunków jako jeden ze sposobów prowadzących do rozwiązania tego problemu, dostrzegają także, mimo że nie wyrazili tego w ten sposób, że indeksowanie tabel i rysunków może być pomocne, zarówno w precyzowaniu myśli (redukcja liczby nieistotnych dokumentów w zbiorze wyszukiwania), jak i przywoływaniu (znajdowanie ważnych tabel lub rysunków, których nie byliby w stanie znaleźć w inny sposób).

Dokument naukowy, to raport opisujący pierwotne wyniki badań, którego forma kształtowała się przez stulecia, zarówno, jeśli chodzi o praktykę redaktorską, jaki i etykę naukową oraz wzajemne oddziaływanie wydawców czy drukarzy. Wynikiem tego procesu jest fakt, że praktycznie każdy dokument naukowy posiada tytuł, streszczenie dokumentu, wstęp, opis metody naukowej, wyniki badań oraz dyskusję i literaturę. Współczesne narzędzia informatyczne na takim raporcie wykonują indeksowanie, przeszukując zwykle streszczenia, słowa kluczowe i dostarczając danych sztucznej inteligencji (AI); nie czyni się tego w wynikach badania, które zawierają tabele i rysunki.

Działało to dobrze przez stulecia, gdy narzędzia informacji naukowej były w znacznym stopniu ograniczone. Wraz z eksplozją informacyjną[2] trwającą przez 20 ostatnich lat tradycyjne pozyskiwanie informacji zostało zmarginalizowane przez nowoczesne narzędzia. Dzięki prędkości i łatwości wyszukiwania elektronicznego mamy dziś wiele informacji w zasięgu ręki; problemem nie jest ich wyszukiwanie, lecz selekcja do najbardziej istotnego materiału.

Wprowadzenie przez Eugene’a Garfielda indeksów cytowań i dodawanie cytowań do tradycyjnego opisu bibliograficznego artykułu naukowego pomogło we wskazaniu najczęściej cytowanych materiałów w ramach danego tematu i zaadoptowaniu tego systemu do wielu ważnych baz danych. Lecz nawet tak drobiazgowy opis i analiza tekstu nie rozwiązały problemu nadmiaru informacji.

W roku 2005 CSA rozpoczęło więc rozpracowywanie innego sposobu wydobywania danych z konkretnych artykułów, a przede wszystkim danych źródłowych zawartych w ilustracjach. Jest to ogromny skok, jeśli chodzi o metody wyszukiwania w narzędziach informatycznych. Dziś nawet bogate uczelnie oraz biblioteki specjalistyczne, korzystające z drogich systemów wyszukujących, nie są w stanie wydobyć z nich graficznych danych. Opierając się na informacjach zawartych na stronach domowych badaczy, zauważono, że pomysł CSA może trafić w sedno sprawy, gdyż wielu naukowców przedstawia nagłówki swoich publikacji w formie miniaturowych obrazków:

Miniaturowe obrazki

Firma CSA chcąc mieć jednak pewność, że pomysł jest możliwy do wykonania, wiosną 2006 r. zapoczątkowała dogłębne badanie rynku. Wytypowała bibliotekarzy uniwersyteckich oraz instytuty badawcze z Europy i Ameryki Północnej, które pomogły przy rekrutacji naukowców do testu. W sumie wzięło w nim udział sześćdziesięciu naukowców z 9 organizacji (7 uniwersytetów oraz 2 instytutów badawczych – 3 w Europie oraz 6 w Stanach Zjednoczonych).

Jeden z członków zespołu badawczego odwiedził poszczególne organizacje, w celu przeprowadzenia wstępnych sesji, pobrania danych, rozprowadzenia haseł oraz dostarczenia instrukcji dotyczących dodatkowego gromadzenia danych. Różnorodne metody gromadzenia danych pozwoliły na walidację danych i triangulację zarówno danych ilościowych, jaki i jakościowych. Pozwoliły one zespołowi na opracowanie pytań prognozujących, np. w jaki sposób indeksowanie tabel oraz rysunków może być wykorzystane przez naukowców, jak również pytań funkcjonalnych, np. które cechy typu wyszukiwania i interfejsu są szczególnie przydatne dla systemu tabel i rysunków.

Zebrano następujące dane:

  • przed- i po- wyszukiwawcze kwestionariusze wskazujące potencjalną użyteczność;
  • oczekiwania i bieżące praktyki;
  • obserwacje przeprowadzane w celu zbadania wstępnych i bieżących interakcji z systemem;
  • strukturalne dzienniki wyszukiwań przeprowadzonych przez uczestników w tygodniach następujących po sesjach wstępnych na tematy przez nich wybrane w celu uzyskania większej liczby szczegółów związanych z potencjalnym wykorzystaniem prototypu Indeksowania Tabel i Rysunków.

Zachęcono uczestników do pogłębionego korzystania z systemu oraz identyfikowania zarówno użytecznych funkcji, jak i problemów związanych z prototypem oraz określono potencjalne cechy użyteczności i funkcjonalności systemu. Badanie ankietowe pokazało, że wszyscy uczestnicy byli doświadczonymi poszukiwaczami informacji. Wyszukiwanie elektroniczne rzeczywiście było najczęściej przez nich wykorzystywane:

  • 35 uczestników (58%) wskazało, że 60%
  • 49 uczestników (82%) wskazało, że 40%

lub więcej z ich wyszukiwań, było dokonywanych przy użyciu narzędzi elektronicznych.

Bariery, ograniczenia, problemy oraz inne rodzaje nieprzyjemnych doświadczeń z systemami wyszukiwania w trybie bezpośrednim (on-line) były identyfikowane dużo częściej przez uczestników niż doświadczenia pozytywne. Wśród nich należy wymienić: brak dostępu do pełnego tekstu, jakość dostępu – tj. powolne serwery lub połączenia, niska jakość znalezionych artykułów, niewystarczająco interdyscyplinarne artykuły, zbyt duże zbiory danych wynikowych.

Pewne kwestie wskazane przez uczestników dotyczyły zapotrzebowania na systemy, które dają wyszukania o wyższej precyzji i efektywności, dostarczając możliwości zadania pytania złożonego, w celu dotarcia do prac przekrojowych i interdyscyplinarnych. Wskazywano także na:

  • dostarczanie standardowego rozwiązania dla obsługi wyszukiwań zawierających znaki diakrytyczne i symbole;
  • używanie bardziej wydajnych, elastycznych, użytecznych, przejrzystych interfejsów;
  • dostarczanie jednolitego, uniwersalnego dostępu do artefaktów wysokiej jakości.

Kwestia dostarczenia bardziej wydajnych, elastycznych oraz przejrzystych interfejsów jest szczególnie istotna, gdy jest rozpatrywana w świetle odpowiedzi, na pytanie zadane w ankiecie: kto przeprowadza większość wyszukiwań dla badaczy?

Jedno z zadanych rozbudowanych zapytań zostało skonstruowane następująco: Jakie są oczekiwania badacza w stosunku do systemu wyszukującego wysokiej jakości obiekty graficzne z konkretnych artykułów? Jakie są ich oczekiwania w stosunku do Indeksowania Tabel i Rysunków przed ich prezentacją? Uczestnicy zostali poproszeni o opisanie sytuacji, w których wyszukane obiekty takie jak: tabele, rysunki, wykresy, mapy oraz fotografie byłyby przydatne i miałyby zastosowanie. Otrzymano odpowiedzi od 60 uczestników, które można by pogrupować w następujące kategorie:

  • Nauczanie, wykłady, rozmowy, prezentacje (tabele i rysunki mogłyby się znaleźć bezpośrednio w oprogramowaniu prezencyjnym, takim jak PowerPoint);
  • Lokalizowanie i wydobywanie danych o konkretnym charakterze, takich jak tabele, wykresy, rysunki, mapy i fotografie;
  • Dokonywanie porównania pracy własnej z pracami innych, jak również porównywanie w szerokim spectrum prac wielu badaczy; umieszczanie czyjejś pracy w kontekście badań danej dziedziny;
  • Szybsze i bardziej precyzyjne rozumienie jednej pracy przez bezpośrednią analizę zagadnienia zlokalizowanego w innych pracach;
  • Wsparcie dla tworzenia analiz, pisania recenzji, artykułów do czasopism, planów badań, rozwijania modeli oraz generowanie hipotez;
  • Szybsze i efektywniejsze wyszukiwanie z mniejszymi i bardziej precyzyjnymi zbiorami wyników;
  • Wsparcie praktyki badawczej oraz nauczania. Zastosowanie nowych umiejętności i metod, wliczając w to efektywne prezentowanie wyników naukowych w tabelach, rysunkach czy wykresach.

Bibliotekarze podkreślili użyteczność bezpośredniego lokalizowania obiektów dla wykorzystania ich do udzielania odpowiedzi na pytania bibliograficzne, ale zgłosili też wiele wątpliwości. Mieli także pomysły, które na razie są poza zasięgiem systemu Indeksowania Tabel i Rysunków.

Najczęściej wskazywane sytuacje, w których wyszukiwanie w tabelach, rysunkach, wykresach itd. byłoby wartościowe, miały związek z przygotowaniem wykładów, debat oraz prezentacji – zarówno w klasach, jak i przed innymi audytoriami np. podczas konferencji lub rozmów rekrutacyjnych. Kiedy badacze mają konkretną ideę do zilustrowania, chcą odnaleźć wartościowy obiekt bez czytania streszczeń, następnie odnaleźć najwajżniejsze artykuły, a w dalszej kolejności obejrzeć i wydobyć tabele i wykresy. W pewnych szczególnych przypadkach, odnoszących się do nauczania, poszukują konkretnych rysunków i tabel, które widzieli wcześniej: często przypominają sobie te obiekty lub ich charakterystyki, ale nie nazwisko autora lub tytuł źródła. Bezpośrednie wyszukiwanie rysunków lub tabel to obietnica, że proces ten stanie się bardziej efektywny.

Kolejny otwarty kwestionariusz zachęcał respondentów do rozwinięcia tematu, w jaki sposób funkcjonalność systemu wpłynęła na ich wyszukiwania i proces odkrywania. W przeważającej części uczestnicy stwierdzali, że system pozwalał im oszczędzić czas i szybciej dotrzeć do informacji. „Jestem w stanie szybko znaleźć tabele i rysunki, które potrzebuję, [i] pozwala mi to zaoszczędzić mnóstwo czasu. Mogę pracować efektywniej” (doktor nauk biologicznych na etacie). Jeden z uczestników wymienił zwiększoną efektywność procesu wyszukiwania, oświadczając: „Gdy wyszukiwanie jest ukierunkowane, jest ono dużo szybsze” (doktor oceanografii na etacie). Niektórzy uczestnicy zauważyli, że ten szybszy dostęp byłby wygodny i pomocny w trakcie przygotowywania prezentacji: „mniej czasu zajmuje znalezienie informacji, której szukam, zwłaszcza w trakcie tworzenia prezentacji” (student biologii). Inna osoba napisała: „Jestem w stanie dużo szybciej znaleźć istotną informację w tym także obrazy, które byłyby użyteczne w prezentacji i badaniach” (profesor inżynier).

Powyżej cytowane wyniki badań, to tylko niewielka część informacji zwrotnych otrzymanych od bibliotekarzy i badaczy biorących udział w testach; niektóre z nich są bardzo pozytywne: uczestnicy przychylnie komentowali możliwości systemu i wyszukiwania pojedynczych rysunków czy miniatur obrazkowych. Jednemu z bibliotekarzy spodobała się „możliwość zdobycia informacji demograficznych bez pobierania pełnego artykułu”. Podobnie inna osoba miała następujące odczucia: „bardziej interesujące jest spojrzenie najpierw na rysunek, jesteś wtedy bardziej skłonny, aby przeczytać o tym, niż gdy trafiasz najpierw na streszczenie” (doktor biologii). Innemu z uczestników podobała się możliwość oglądania rysunków i tabel w ramach jakiegoś tematu: „wydaje mi się, że miniatury obrazków są często wystarczające na tyle, że gdy raz na nie spojrzę od razu wiem, czy dany element wart jest pobrania” (doktor geologii).

Jednak nie wszystkie uwagi były przychylne. Wielu uczestników wskazywało na występowanie problemów związanych z wyszukiwaniem obrazków i miniatur. System prototypowy miał pewne problemy z obrazkami, które nie chciały się powiększać, a rysunki były zbyt małe i niskiej jakości, przez co stawały się nieużyteczne. Jakość wykonywanych zdjęć również pozostawiała wiele do życzenia, generalnie zgadzano się, że w rezultacie wyszukania istotny jest cały nagłówek. Po testach, jesienią 2006 r., prototyp udoskonalono, został „rozłożony na części pierwsze”: poprawiono jakość obrazów, nagłówki rozjaśniono, czas odpowiedzi na pytanie skrócono do minimum, w wynikach wyszukiwania pojawiły się miniatury obrazkowe.

Wyniki wyszukiwania

By uzyskać pełen opis obiektu – nagłówek – umieszcza się kursor myszy na rysunku w bieżącym rekordzie, jak pokazano poniżej:

Pełen opis obiektu

Po testach i poprawkach projekt został zaprezentowany w styczniu 2007 r. pod nazwą CSA Illustrata – Nauki Przyrodnicze. W czasie procesu rejestracji, aby uzyskać materiał do indeksowania, twórcy systemu dotarli do niemal wszystkich dużych wydawców akademickich, a liczba rekordów w bazie danych osiągnęła masę krytyczną o wartości 1 000 000 obiektów. Teksty z nagłówków, wszystkie ilustracje (obiekty) zostały ulepszone i są teraz indeksowane przez deskryptory, tematy i identyfikatory obiektu. Tam, gdzie ma to zastosowanie stosuje się klasyfikację systematyczną: geograficzną i statystyczną tak, że każdy z obiektów da się wyszukać.

Przypisy:

[1] Artykuł powstał w oparciu o raport rządowy sporządzony przez Dr Carol Tenopir, Dr Bob Sandusky oraz Margaret M. Casado.

[2] W pierwszym roku publikacji 1907 Chemical Abstracts zawierały w sumie mniej niż 12 000 streszczeń. Dla porównania w roku 2006 w Chemical Abstracts opublikowano milion streszczeń.

Literatura:

  1. JACSO, Peter. CSA Illustrata według Jacso. Online, 2007, 32 (3).
  2. TENOPIR, C., SANDUSKY, R. J. i CASADO, M. M., Wartość głębokiego indeksowania CSA dla badaczy. Raport Rządowy 2006.

Przekład: Ewa Klorek



Aby uzyskać testowy dostęp do CSA Illustrata proszę o kontakt z lokalnym przedstawicielem Ewą Klorek:
Account Manager Eastern & Central Europe
ProQuest CSA
4640 Kingsgate, Cascade Way
Oxford OX4 2ST, UK
Direct Line: +44 (0)1865 336287
Switchboard: +44 (0) 07800 895658
Mobile: +44 (0) 07800 895658

 Początek strony



Dlaczego warto stosować głębokie indeksowanie? / Helle Lauridsen// W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska. - Nr 4/2007 (85) maj. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2007. - Tryb dostępu: http://www.ebib.info/2007/85/a.php?proquest2. - Tyt. z pierwszego ekranu. - ISSN 1507-7187