Nr 3/2006 (73), Open Access i inicjatywy pokrewne. Artykuł |
Paweł Najsarek
| |||
Początek XXI wieku to czas ciągłego rozwoju technologii i technik informacji. Źródła informacji pisanej, tj. książka, czasopismo, są nadal podstawowym sposobem poszerzania wiedzy, ale nie jedynym. Rosnąca w ostatnim czasie popularność Internetu wprowadza wiele zmian w dostępie do informacji. Od kilku lat obserwujemy rozwój publikacji elektronicznych, które ze swoją bogatą ofertą źródeł naukowych trafiają do ogromnej grupy zainteresowanych. Szybki i łatwy dostęp do tych informacji coraz bardziej rywalizuje z przekazem tradycyjnym (papier). Publikacje elektroniczne zamieszczane są na specjalnych portalach określanych repozytoriami, do których sposób dostępu nazywany jest open access. Open Access - wolny dostęp - oznacza nieograniczony dostęp do darmowych publikacji. Dużą zaletą omawianego sposobu dostępu jest umieszczanie artykułu jako depozytu z zachowaniem praw autorskich oraz łatwe ich wyszukiwanie. Zawarte w nich materiały mogą być uzupełniającym źródłem informacji dostępnych w bibliotekach. Materiały zamieszczane w systemach tego typu są wykorzystywane przez ośrodki naukowe bez dodatkowej zgody. Atutem jest również dokonywana selekcja i kontrola publikacji. Sprawdzenie tekstów przed publikacją jest dokonywane przez ludzi. Dla użytkowników i czytelników materiałów zamieszczonych na wyżej wymienionych stronach ma to swoje pozytywne odzwierciedlenie. Publikowane materiały są objęte obiektywną i krytyczną kontrolą, co wpływa na poziom i właściwe zaklasyfikowanie materiału do odpowiedniego działu, a to wpływa na trafność poszukiwań. Repozytorium oznacza miejsce przechowywania dokumentów elektronicznych przeznaczonych do udostępniania. Zaprojektowane jest w taki sposób, aby dostęp do wszystkich zasobów był prosty. Dla zobrazowania terminu ? repozytorium - porównać można je do magazynu biblioteki, w którym przechowywane są materiały. Natomiast Open Access określa nam sposoby dostępu, ale również reguły, które są narzucone przy korzystaniu z publikacji umieszczonych w repozytorium. Chcąc zbudować repozytorium, można skorzystać z cennych wskazówek, które znajdują się na stronach inicjatywy powstałej w Uniwersytecie w Southampton www.eprints.org. Poniżej został przedstawiony przykładowy schemat blokowy pokazujący działanie repozytorium. W nawiasie podano pojęcia związane z danym blokiem.
Najbardziej znane oprogramowanie OA: ePrints, dSpace, Greenstone, Fedora, zob. na stronie Open Archives Initatives: http://www.openarchives.org/tools/tools.html. OAI-PMH Protocol. To protokół, który za pomocą odpowiednich kodów zbiera informacje z metadanych umieszczonych w repozytoriach ? tworząc swoistą bazę danych z ogromną możliwością wyszukiwania informacji i odnośników do publikacji. Metadata. Struktura danych opisująca zasoby elektroniczne lub tradycyjne (katalogi biblioteczne). Przykładem metadanych są pola zawierające: autora publikacji, datę wydania, tytuł itp. Dublin Core. Ogólny standard metadanych. Standard ten do opisu wykorzystuje 15 następujących elementów:
Publikacje możemy zamieszczać i przeglądać w różnych formatach. Wiąże się to z posiadaniem odpowiedniego oprogramowania, które umożliwia właściwe gromadzenie i wykorzystanie zamieszczonych w niej materiałów. Najczęściej spotykane formaty w repozytoriach Open Access zostały wymienione poniżej. Formaty.doc - najpopularniejszy format zapisu tekstu, wykorzystywany przez aplikacje Word. Umożliwia autorowi zabezpieczenie tekstu przed wprowadzeniem zmian. Użytkownik, zabezpieczając dokument, może zastosować hasło. .pdf - format stworzony i promowany przez firmę Adobe. Przeglądanie dokumentów w tym formacie możliwe jest za pomocą aplikacji Acrobat Reader (www.adobe.com) lub Ghostscript (www.cs.wisc.edu/~ghost). Narzędzia te są darmowe i ogólnie dostępnie dla każdego internauty. Format cieszy się bardzo dużą popularnością. Dokument w formacie PDF jest dokumentem hipertekstowym, niezależnym od urządzenia drukującego/wyświetlającego (jest wieloplatformowy). Autor, zamieszczając swój materiał w formacie PDF, może nie tylko zabezpieczyć go przed wprowadzaniem zmian, ale również przed kopiowaniem lub drukowaniem. .djvu - format plików graficznych. DjVu posiada bardzo efektywną metodę kompresji obrazu. Dokumenty DjVu są najmniejsze ze spotykanych w zastosowaniach przemysłowych, nawet do 1000 razy mniejsze niż pliki TIFF. Są też zwyczajowo 5 do 100 razy mniejsze niż pliki JPEG czy PDF. Chociaż pliki PDF są obecnie powszechnie używane, były rozwijane głównie jako formaty stosowane do wydruków i nie są najlepsze do zastosowań archiwizacyjnych. Dokumenty DjVu wyświetlane są zawsze w taki sam sposób. Oglądanie dokumentów DjVu jest niezależne od platformy. Wysoka jakość obrazu w dokumentach DjVu powoduje, że z dobrym skutkiem stosowane są w nich techniki rozpoznawania pisma OCR. Wyniki takiego rozpoznania zapisywane są wewnątrz dokumentu DjVu na specjalnej warstwie i mogą być poddane przeszukiwaniu lub eksportowane do pliku TXT lub XML. Dodatkowo dokumenty DjVu wygenerowane elektronicznie mogą pozyskać warstwę tekstową bezpośrednio z dokumentu źródłowego, z którego powstały. Warstwa tekstowa wówczas jest wierna z oryginałem w 100%. .rtf - Rich Text Format - format pliku opracowany w 1987 r. przez Microsoft do międzyplatformowej wymiany informacji między procesorami tekstów. .dvi - DeVice Independent - format pliku wynikowego w programie wydawniczym TeX. W przeciwieństwie do plików ze znacznikami TeX, pliki DVI nie są przeznaczone do czytania przez użytkownika; zawierają dane binarne opisujące wizualny układ dokumentu w sposób niezależny od specyficznego formatu graficznego, monitora czy drukarki. Pliki DVI są zwykle używane jako pliki wejściowe w innym programie (DVI driver), który przetwarza pliki DVI na dane graficzne. Dla przykładu, większość pakietów TeX zawiera program do podglądu plików DVI na monitorze komputera - program taki jest sterownikiem (driverem). Drivery są też używane do przetworzenia DVI na popularne formaty dokumentów, np. PostScript, PDF, i do drukowania. Języki.ps ? PostScript - język opisu strony dokumentu drukowanego przez drukarkę komputerową lub naświetlanego przez naświetlarkę. W przygotowywanym do wydruku dokumencie są umieszczane (zwykle przez edytor tekstu, program graficzny) instrukcje w języku Postscript. Używa się go do uzyskiwania wydruków wysokiej jakości (np. ilustrowanych), zwłaszcza w małej poligrafii komputerowej (desktop publishing). Zastosowanie Postscriptu wymaga drukarki wyposażonej w interpreter posctscriptowy (tzw. drukarki postscriptowe); wprowadzony w 1985 r. przez amerykańską firmę Adobe Systems Incorporated. .html - język definiowania i formatowania dokumentów cyfrowych, oprac. w latach 1989?1991 przez T. Bernersa-Lee dla organizacji CERN na podstawie standardu SGML, później rozbudowywany. Zawiera m.in. instrukcje umożliwiające projektowanie układu strony, zamieszczanie ilustracji w tekście, określanie krojów pisma, definiowanie powiązań pomiędzy różnymi dokumentami lub fragmentami tego samego dokumentu; powszechnie wykorzystywany do opracowywania stron hipertekstu w systemie WWW. .xml - eXtensible Markup Language - standard przekazywania informacji wraz z ich opisem, wykorzystującym proste znaczniki. XML to język umożliwiający tworzenie swoich własnych znaczników formatujących, definiowanych w tzw. schematach XML. XML i jego zastosowania prawdopodobnie w przyszłości zastąpią całkowicie HTML, gdyż XML w wersji 1.0 został uznany za standard przez W3C - organizację, która zajmuje się ustanawianiem standardów pisania i przesyłu stron WWW. Jego rozwój jest silnie wspierany przez najważniejsze firmy produkujące oprogramowanie, takie jak: Microsoft, Oracle, Silicon Graphics, Sun Microsystems, wiele innych. XML umożliwia pisanie dokumentów, które będą mogły być obsługiwane przez najróżniejsze urządzenia i programy. XML umożliwia też tworzenie tzw. aplikacji - czyli zestawów znaczników do konkretnych zastosowań, z których obecnie najbardziej znane są: XHTML, MathML, SVG, CML. Zaletą XML-a jest możliwość dowolnego mieszania tych aplikacji, co umożliwia np. włączanie fragmentów MathML czy SVG do dokumentów napisanych w XHTML-u, tworząc jeden, poprawny składniowo dokument XML. InneOprócz powyższej terminologii możemy spotkać się z mniej znanymi nazwami formatów i pojęciami wykorzystywanymi przy udostępnianiu informacji (RDF, RSS, P3P, URI, URL, URN). RDF - Resource Description Framework - struktura opisu zasobów do reprezentacji informacji w sieci. Założeniem RDF jest opis zasobu za pomocą wyrażenia składającego się z trzech elementów: podmiotu, predykatu i obiektu. W RDF podmiot stanowi opisywany zasób, predykat określa, jaka jego własność jest opisywana, zaś obiekt stanowi wartość tej własności. Podstawowym mechanizmem wykorzystywanym przez RDF do identyfikacji podmiotu, predykatu i obiektu jest URI. Celem RDF jest umożliwienie maszynowego przetwarzania abstrakcyjnych opisów zasobów w sposób automatyczny. RSS - Really Simple Syndication - umowna rodzina języków znacznikowych do przesyłania nagłówków wiadomości. Wszystkie w większym lub w mniejszym zakresie bazują na XML-u. Aby ?obejrzeć kanał RSS, musimy skorzystać ze specjalnego programu (tzw. czytnik kanałów). Często czytniki RSS-ów są zamieszczane w programach pocztowych (np. Thunderbird). RSS przypomina popularne newslettery, z tym że wiadomości docierają do prenumeratora indywidualnie i natychmiast po tym, jak zostają opublikowane (a nie np. raz dziennie). Korzystając z RSS-ów, można zebrać w jednym miejscu informacje z wielu źródeł na interesujący temat. Ściągane jest nic więcej niż ?spis treści? wybranych serwisów internetowych. P3P - Opracowana przez konsorcjum W3C technologia zapewniająca ochronę danych osobowych użytkowników oraz kontrolę nad tym, kto zbiera o nich informacje w czasie ich korzystania z sieci. Obecnie technologia ta nie jest jeszcze specjalnie popularna i niewiele serwerów wspiera jej obsługę, aczkolwiek pojawiają się programy realizujące procesy nadzoru oparte na założeniach standardu P3P ? np. Internet Explorer od wersji 6.0. Właściciele stron WWW wykorzystujący ten standard określają, jakiego rodzaju informacje pozyskują od odwiedzających. Ci z kolei, dzięki przeglądarkom internetowym zgodnym z P3P, mogą określić, jakiego rodzaju informacje są gotowi udostępnić. URI - Uniform Resorce Identifier - stanowi nadzbiór URL i URN. Można nim zaadresować nie tylko witrynę, ale również książkę, np. urn:ISDN:83-204-2627-8. URL - Uniform Resorce Locator - zunifikowany format odnośników do zasobów internetowych. URL składa się z rodzaju zasobu, dwukropka i części zależnej od rodzaju zasobu. Nazwy rodzaju zasobu mogą składać się z małych liter, plusa, myślnika oraz kropki, np. //adres_serwera/ścieżka_dostępu. URN - Uniform Resource Name - oznacza zunifikowany format nazw zasobów, głównie książek. eprint ? termin określa publikację wydaną w formie elektronicznej:
Samoarchiwizowanie - Self-archiving ? oznacza umieszczenie przez autora publikacji na jego prywatnej stronie internetowej lub w archiwach (repozytoriach) instytucji czy też w archiwach dziedzinowych. Przedstawione w powyższym artykule terminy są tylko wstępem do bardzo obszernego tematu, jakim jest terminologia związana z Open Access. Bibliotekarze powinni z taką terminologią zapoznawać się na bieżąco, gdyż świat technologii sieciowych staje się światem bibliotekarzy, obszarem ich codziennych działań. Bibliografia1. Wielka Encyklopedia PWN [on-line]. Warszawa: Wydawnictwo Naukowe PWN S.A., 1998 [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://encyklopedia.pwn.pl. 2. Supporting Open Access [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://eprints.org oraz http://www.eprints.org/glossary/. 3. Wikipedia ? wolna encyklopedia [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://pl.wikipedia.org/. 4. PC Kurier [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://www.pckurier.pl/. 5. French National Institute for Research in Computer Science and Automatic Control (INRIA) ? Open Archive Glossary [on-line]. [dostęp 6 luty 2006]. Dostępny w World Wide Web: http://www.inria.fr/publications/archiveouverte/lexique.en.html. |
| |||