EBIB 
Nr 3/2006 (73), Open Access i inicjatywy pokrewne. Artykuł
 Poprzedni artyku Nastpny artyku   

 


Paweł Najsarek
Biblioteka Uniwersytecka w Poznaniu

Terminologia Open Access – o czym warto wiedzieć?


Początek XXI wieku to czas ciągłego rozwoju technologii i technik informacji. Źródła informacji pisanej, tj. książka, czasopismo, są nadal podstawowym sposobem poszerzania wiedzy, ale nie jedynym. Rosnąca w ostatnim czasie popularność Internetu wprowadza wiele zmian w dostępie do informacji. Od kilku lat obserwujemy rozwój publikacji elektronicznych, które ze swoją bogatą ofertą źródeł naukowych trafiają do ogromnej grupy zainteresowanych. Szybki i łatwy dostęp do tych informacji coraz bardziej rywalizuje z przekazem tradycyjnym (papier). Publikacje elektroniczne zamieszczane są na specjalnych portalach określanych repozytoriami, do których sposób dostępu nazywany jest open access.

Open Access - wolny dostęp - oznacza nieograniczony dostęp do darmowych publikacji. Dużą zaletą omawianego sposobu dostępu jest umieszczanie artykułu jako depozytu z zachowaniem praw autorskich oraz łatwe ich wyszukiwanie. Zawarte w nich materiały mogą być uzupełniającym źródłem informacji dostępnych w bibliotekach. Materiały zamieszczane w systemach tego typu są wykorzystywane przez ośrodki naukowe bez dodatkowej zgody. Atutem jest również dokonywana selekcja i kontrola publikacji. Sprawdzenie tekstów przed publikacją jest dokonywane przez ludzi. Dla użytkowników i czytelników materiałów zamieszczonych na wyżej wymienionych stronach ma to swoje pozytywne odzwierciedlenie. Publikowane materiały są objęte obiektywną i krytyczną kontrolą, co wpływa na poziom i właściwe zaklasyfikowanie materiału do odpowiedniego działu, a to wpływa na trafność poszukiwań.

Repozytorium oznacza miejsce przechowywania dokumentów elektronicznych przeznaczonych do udostępniania. Zaprojektowane jest w taki sposób, aby dostęp do wszystkich zasobów był prosty. Dla zobrazowania terminu – repozytorium - porównać można je do magazynu biblioteki, w którym przechowywane są materiały. Natomiast Open Access określa nam sposoby dostępu, ale również reguły, które są narzucone przy korzystaniu z publikacji umieszczonych w repozytorium.

Chcąc zbudować repozytorium, można skorzystać z cennych wskazówek, które znajdują się na stronach inicjatywy powstałej w Uniwersytecie w Southampton www.eprints.org. Poniżej został przedstawiony przykładowy schemat blokowy pokazujący działanie repozytorium. W nawiasie podano pojęcia związane z danym blokiem.


Rys. 1. Schemat blokowy budowy repozytorium

Najbardziej znane oprogramowanie OA: ePrints, dSpace, Greenstone, Fedora, zob. na stronie Open Archives Initatives: http://www.openarchives.org/tools/tools.html.

OAI-PMH Protocol. To protokół, który za pomocą odpowiednich kodów zbiera informacje z metadanych umieszczonych w repozytoriach – tworząc swoistą bazę danych z ogromną możliwością wyszukiwania informacji i odnośników do publikacji.

Metadata. Struktura danych opisująca zasoby elektroniczne lub tradycyjne (katalogi biblioteczne). Przykładem metadanych są pola zawierające: autora publikacji, datę wydania, tytuł itp.

Dublin Core. Ogólny standard metadanych. Standard ten do opisu wykorzystuje 15 następujących elementów:

  1. Title (tytuł)
  2. Creator (twórca)
  3. Subject and Keyword (temat i słowa kluczowe)
  4. Description (opis)
  5. Publisher (wydawca)
  6. Contributor (współtwórca)
  7. Date (data)
  8. Resource Type (typ zasobu)
  9. Format (format)
  10. Resource Identifier (identyfikator zasobu)
  11. Source (źródło)
  12. Language (język)
  13. Relation (odniesienie)
  14. Coverage (zakres)
  15. Rights Management (zarządzanie prawami)

Publikacje możemy zamieszczać i przeglądać w różnych formatach. Wiąże się to z posiadaniem odpowiedniego oprogramowania, które umożliwia właściwe gromadzenie i wykorzystanie zamieszczonych w niej materiałów. Najczęściej spotykane formaty w repozytoriach Open Access zostały wymienione poniżej.

Formaty

.doc - najpopularniejszy format zapisu tekstu, wykorzystywany przez aplikacje Word. Umożliwia autorowi zabezpieczenie tekstu przed wprowadzeniem zmian. Użytkownik, zabezpieczając dokument, może zastosować hasło.

.pdf - format stworzony i promowany przez firmę Adobe. Przeglądanie dokumentów w tym formacie możliwe jest za pomocą aplikacji Acrobat Reader (www.adobe.com) lub Ghostscript (www.cs.wisc.edu/~ghost). Narzędzia te są darmowe i ogólnie dostępnie dla każdego internauty. Format cieszy się bardzo dużą popularnością. Dokument w formacie PDF jest dokumentem hipertekstowym, niezależnym od urządzenia drukującego/wyświetlającego (jest wieloplatformowy). Autor, zamieszczając swój materiał w formacie PDF, może nie tylko zabezpieczyć go przed wprowadzaniem zmian, ale również przed kopiowaniem lub drukowaniem.

.djvu - format plików graficznych. DjVu posiada bardzo efektywną metodę kompresji obrazu. Dokumenty DjVu są najmniejsze ze spotykanych w zastosowaniach przemysłowych, nawet do 1000 razy mniejsze niż pliki TIFF. Są też zwyczajowo 5 do 100 razy mniejsze niż pliki JPEG czy PDF. Chociaż pliki PDF są obecnie powszechnie używane, były rozwijane głównie jako formaty stosowane do wydruków i nie są najlepsze do zastosowań archiwizacyjnych. Dokumenty DjVu wyświetlane są zawsze w taki sam sposób. Oglądanie dokumentów DjVu jest niezależne od platformy. Wysoka jakość obrazu w dokumentach DjVu powoduje, że z dobrym skutkiem stosowane są w nich techniki rozpoznawania pisma OCR. Wyniki takiego rozpoznania zapisywane są wewnątrz dokumentu DjVu na specjalnej warstwie i mogą być poddane przeszukiwaniu lub eksportowane do pliku TXT lub XML. Dodatkowo dokumenty DjVu wygenerowane elektronicznie mogą pozyskać warstwę tekstową bezpośrednio z dokumentu źródłowego, z którego powstały. Warstwa tekstowa wówczas jest wierna z oryginałem w 100%.

.rtf - Rich Text Format - format pliku opracowany w 1987 r. przez Microsoft do międzyplatformowej wymiany informacji między procesorami tekstów.

.dvi - DeVice Independent - format pliku wynikowego w programie wydawniczym TeX. W przeciwieństwie do plików ze znacznikami TeX, pliki DVI nie są przeznaczone do czytania przez użytkownika; zawierają dane binarne opisujące wizualny układ dokumentu w sposób niezależny od specyficznego formatu graficznego, monitora czy drukarki. Pliki DVI są zwykle używane jako pliki wejściowe w innym programie (DVI driver), który przetwarza pliki DVI na dane graficzne. Dla przykładu, większość pakietów TeX zawiera program do podglądu plików DVI na monitorze komputera - program taki jest sterownikiem (driverem). Drivery są też używane do przetworzenia DVI na popularne formaty dokumentów, np. PostScript, PDF, i do drukowania.

Języki

.psPostScript - język opisu strony dokumentu drukowanego przez drukarkę komputerową lub naświetlanego przez naświetlarkę. W przygotowywanym do wydruku dokumencie są umieszczane (zwykle przez edytor tekstu, program graficzny) instrukcje w języku Postscript. Używa się go do uzyskiwania wydruków wysokiej jakości (np. ilustrowanych), zwłaszcza w małej poligrafii komputerowej (desktop publishing). Zastosowanie Postscriptu wymaga drukarki wyposażonej w interpreter posctscriptowy (tzw. drukarki postscriptowe); wprowadzony w 1985 r. przez amerykańską firmę Adobe Systems Incorporated.

.html - język definiowania i formatowania dokumentów cyfrowych, oprac. w latach 1989–1991 przez T. Bernersa-Lee dla organizacji CERN na podstawie standardu SGML, później rozbudowywany. Zawiera m.in. instrukcje umożliwiające projektowanie układu strony, zamieszczanie ilustracji w tekście, określanie krojów pisma, definiowanie powiązań pomiędzy różnymi dokumentami lub fragmentami tego samego dokumentu; powszechnie wykorzystywany do opracowywania stron hipertekstu w systemie WWW.

.xml - eXtensible Markup Language - standard przekazywania informacji wraz z ich opisem, wykorzystującym proste znaczniki. XML to język umożliwiający tworzenie swoich własnych znaczników formatujących, definiowanych w tzw. schematach XML. XML i jego zastosowania prawdopodobnie w przyszłości zastąpią całkowicie HTML, gdyż XML w wersji 1.0 został uznany za standard przez W3C - organizację, która zajmuje się ustanawianiem standardów pisania i przesyłu stron WWW. Jego rozwój jest silnie wspierany przez najważniejsze firmy produkujące oprogramowanie, takie jak: Microsoft, Oracle, Silicon Graphics, Sun Microsystems, wiele innych. XML umożliwia pisanie dokumentów, które będą mogły być obsługiwane przez najróżniejsze urządzenia i programy. XML umożliwia też tworzenie tzw. aplikacji - czyli zestawów znaczników do konkretnych zastosowań, z których obecnie najbardziej znane są: XHTML, MathML, SVG, CML. Zaletą XML-a jest możliwość dowolnego mieszania tych aplikacji, co umożliwia np. włączanie fragmentów MathML czy SVG do dokumentów napisanych w XHTML-u, tworząc jeden, poprawny składniowo dokument XML.

Inne

Oprócz powyższej terminologii możemy spotkać się z mniej znanymi nazwami formatów i pojęciami wykorzystywanymi przy udostępnianiu informacji (RDF, RSS, P3P, URI, URL, URN).

RDF - Resource Description Framework - struktura opisu zasobów do reprezentacji informacji w sieci. Założeniem RDF jest opis zasobu za pomocą wyrażenia składającego się z trzech elementów: podmiotu, predykatu i obiektu. W RDF podmiot stanowi opisywany zasób, predykat określa, jaka jego własność jest opisywana, zaś obiekt stanowi wartość tej własności. Podstawowym mechanizmem wykorzystywanym przez RDF do identyfikacji podmiotu, predykatu i obiektu jest URI. Celem RDF jest umożliwienie maszynowego przetwarzania abstrakcyjnych opisów zasobów w sposób automatyczny.

RSS - Really Simple Syndication - umowna rodzina języków znacznikowych do przesyłania nagłówków wiadomości. Wszystkie w większym lub w mniejszym zakresie bazują na XML-u. Aby „obejrzeć kanał RSS, musimy skorzystać ze specjalnego programu (tzw. czytnik kanałów). Często czytniki RSS-ów są zamieszczane w programach pocztowych (np. Thunderbird). RSS przypomina popularne newslettery, z tym że wiadomości docierają do prenumeratora indywidualnie i natychmiast po tym, jak zostają opublikowane (a nie np. raz dziennie). Korzystając z RSS-ów, można zebrać w jednym miejscu informacje z wielu źródeł na interesujący temat. Ściągane jest nic więcej niż „spis treści” wybranych serwisów internetowych.

P3P - Opracowana przez konsorcjum W3C technologia zapewniająca ochronę danych osobowych użytkowników oraz kontrolę nad tym, kto zbiera o nich informacje w czasie ich korzystania z sieci. Obecnie technologia ta nie jest jeszcze specjalnie popularna i niewiele serwerów wspiera jej obsługę, aczkolwiek pojawiają się programy realizujące procesy nadzoru oparte na założeniach standardu P3P – np. Internet Explorer od wersji 6.0. Właściciele stron WWW wykorzystujący ten standard określają, jakiego rodzaju informacje pozyskują od odwiedzających. Ci z kolei, dzięki przeglądarkom internetowym zgodnym z P3P, mogą określić, jakiego rodzaju informacje są gotowi udostępnić.

URI - Uniform Resorce Identifier - stanowi nadzbiór URL i URN. Można nim zaadresować nie tylko witrynę, ale również książkę, np. urn:ISDN:83-204-2627-8.

URL - Uniform Resorce Locator - zunifikowany format odnośników do zasobów internetowych. URL składa się z rodzaju zasobu, dwukropka i części zależnej od rodzaju zasobu. Nazwy rodzaju zasobu mogą składać się z małych liter, plusa, myślnika oraz kropki, np. //adres_serwera/ścieżka_dostępu.

URN - Uniform Resource Name - oznacza zunifikowany format nazw zasobów, głównie książek.

eprint – termin określa publikację wydaną w formie elektronicznej:

  1. Post-Print - określa publikację, która została już wydana w formie drukowanej.
  2. Pre-print – takim określeniem nazywamy materiały, które zamieszczane są na serwisach preprintowych i repozytoriach zatwierdzone do publikacji, ale jeszcze niewydrukowane.

Samoarchiwizowanie - Self-archiving – oznacza umieszczenie przez autora publikacji na jego prywatnej stronie internetowej lub w archiwach (repozytoriach) instytucji czy też w archiwach dziedzinowych.

Przedstawione w powyższym artykule terminy są tylko wstępem do bardzo obszernego tematu, jakim jest terminologia związana z Open Access. Bibliotekarze powinni z taką terminologią zapoznawać się na bieżąco, gdyż świat technologii sieciowych staje się światem bibliotekarzy, obszarem ich codziennych działań.

Bibliografia

1. Wielka Encyklopedia PWN [on-line]. Warszawa: Wydawnictwo Naukowe PWN S.A., 1998 [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://encyklopedia.pwn.pl.

2. Supporting Open Access [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://eprints.org oraz http://www.eprints.org/glossary/.

3. Wikipedia – wolna encyklopedia [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://pl.wikipedia.org/.

4. PC Kurier [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://www.pckurier.pl/.

5. French National Institute for Research in Computer Science and Automatic Control (INRIA) – Open Archive Glossary [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://www.inria.fr/publications/archiveouverte/lexique.en.html.

 Początek strony



Terminologia Open Access – o czym warto wiedzieć? / Paweł Najsarek// W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska. - Nr 3/2006 (73) marzec. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2006. - Tryb dostępu: http://www.ebib.info/2006/73/najsarek.php. - Tyt. z pierwszego ekranu. - ISSN 1507-7187