ebib 
Nr 7/2009 (107), Digitalizacja w Polsce i Europie. Artykuł
 poprzedni artykuł następny artykuł   

 


Katarzyna Kwiatkowska-Žák
Petr Žák
Biblioteka Narodowa

Webarchiv - czeski projekt archiwizacji publikacji internetowych


W ostatnich latach czeskie bibliotekarstwo szybko się rozwija. W niektórych obszarach osiąga wyniki na europejskim, a nawet światowym poziomie. Warto więc śledzić poczynania naszych południowych sąsiadów i zapoznać się bliżej z funkcjonowaniem czeskich bibliotek oraz realizowanymi przez nie projektami[1]. Niektóre z tych długofalowych przedsięwzięć mogą stanowić interesujący przykład do naśladowania oraz poszerzania współpracy międzybibliotecznej w naszym środkowoeuropejskim regionie[2]. Szczególnie warte uwagi są te związane ze stosowaniem nowoczesnych technologii informacyjnych i komunikacyjnych oraz tworzeniem, przechowywaniem i udostępnianiem zasobów w postaci elektronicznej. Mamy tu przede wszystkim na myśli digitalizację dokumentów i tworzenie bibliotek cyfrowych, m.in. znany już w świecie system Manusriptorium, który przekształca się w wirtualne środowisko badawcze i platformę dla międzynarodowego projektu UE - ENRICH (bliżej zob. http://www.manuscriptorium.com/Site/CZE/default_cze.asp), a także kolejny czeski projekt Kramerius (http://kramerius.nkp.cz). Do tego nurtu działań należy również zaliczyć pozyskiwanie, archiwizowanie i udostępnianie źródeł elektronicznych, dostępnych on-line. Owe publikacje sieciowe (taki termin w końcu w Czechach przyjęto) są dla bibliotekarzy szczególnym wyzwaniem, gdyż tworzą najbardziej dynamiczną, ale też nietrwałą część dorobku informacyjnego społeczeństwa i zarazem narodowego dziedzictwa kulturowego. Wyzwanie to podjęto w Czechach w postaci projektu WebArchiv (bliżej zob. WebArchiv http://www.webarchiv.cz), który wraz z ww. Manuscriptorium oraz projektem Kramerius stanowi jądro czeskiej Narodowej Biblioteki Cyfrowej.

Warto nadmienić, że problemem gromadzenia, przechowywania oraz udostępniania źródeł elektronicznych, publikowanych w Internecie i traktowanych jako część dziedzictwa narodowego czy narodowego zasobu informacji, bibliotekarze w świecie zajęli się już w połowie lat 90.[3] W Czechach projekt WebArchiv zainicjowano w 2000 r., a więc tylko z kilkuletnim opóźnieniem w stosunku do czołówki światowej. Należy jednak zaznaczyć, że pierwsze praktyczne wyniki, tzn. udostępnienie części cyfrowego archiwum, nastąpiło dopiero w 2005 r. W Polsce temat archiwizacji i udostępniania publikacji sieciowych jest już dostrzegany (i to również w kontekście gromadzenia oraz przechowywania egzemplarza obowiązkowego)[4], niemniej nie został dotychczas przez biblioteki podjęty w postaci konkretnego przedsięwzięcia zakrojonego na szerszą skalę.

Realizatorzy czeskiego projektu WebArchiv byli świadomi globalnego zjawiska szybkiego wzrostu liczby dokumentów publikowanych w Internecie. W samych tylko Czechach, jak podaje stowarzyszenie CZ.NIC rejestrujące czeskie domeny, ich liczba przekroczyła w styczniu 2009 r. 500 000, a więc o ok. 200 000 więcej niż przed dwoma laty[5]. Jednocześnie zdawali sobie sprawę ze złożoności i nietrwałości zasobów sieciowych, co już wcześniej stwierdzono za granicą. Z zagranicznych szacunków wynikało, że ponad 90% ogólnej liczby publikacji dostępnych w Internecie stanowią dokumenty istniejące tylko w postaci elektronicznej (tzw. digital born), przy czym ok. 40% publikacji w ciągu roku znika z sieci, a kolejnych 40% zmienia formę. Po roku tylko 20% sieciowych dokumentów elektronicznych jest dostępnych w pierwotnym kształcie. Z kolei przeciętny okres życia strony webowej (tzn. czasu, kiedy strona jest dostępna pod swoim pierwotnym URL) wynosi, według Alexa Internet, amerykańskiej spółki monitorującej ruch w globalnej sieci, tylko 75 dni[6]. Lawinowy wzrost liczby publikacji sieciowych oraz ich specyficzne cechy, zwłaszcza krótkotrwałość, stanowiły główne powody rozpoczęcia działań zmierzających do archiwizacji czeskiego Webu. Ich sens pięknie ujął Adam Brokeš, jeden z uczestników całego przedsięwzięcia: Wierzę, że pozostawiamy przesłanie i użytkową wartość przyszłym pokoleniom, które nie będą musiały patrzeć na nasze czasy jako na okres czarnej dziury informacyjnej.

Projekt WebArchiv nie był tylko jednorazowym eksperymentem kilku zapaleńców, lecz stał się szybko częścią szerszego planu działań, obejmujących archiwizowanie różnego rodzaju dokumentów, w tym elektronicznych. Wpisał się odpowiednio w Koncepcję stałego przechowywania zbiorów tradycyjnych i elektronicznych dokumentów w bibliotekach RCz do roku 2010, która z kolei powstała w wyniku realizacji jednego z zadań sformułowanych w Koncepcji rozwoju bibliotek w Republice Czeskiej na lata 2004-2010. Warto przypomnieć, że w ramach tej pierwszej koncepcji podzielono dokumenty na cztery grupy: dokumenty tradycyjne, digitalizowane dokumenty historyczne, digitalizowane dokumenty nowsze oraz publikowane dokumenty elektroniczne. Ten podział odzwierciedla specyfikę poszczególnych grup dokumentów, które - według twórców Koncepcji stałego przechowywania zbiorów - należy w przyszłości zintegrować w jedno przyjazne dla użytkownika środowisko, które będzie miało większy zasięg i asortyment usług od tych proponowanych przez dzisiejsze biblioteki, portale, wyszukiwarki etc. (Przykładem tworzenia takiego środowiska "wyższego rzędu" jest wspomniany wcześniej system Manuscriptorium, rozwijany w Bibliotece Narodowej Republiki Czeskiej - NK ČR). W Koncepcji stałego przechowywania zbiorów starano się przede wszystkim sformułować finansowe, prawne, organizacyjne oraz techniczne warunki niezbędne do gromadzenia, archiwizowania oraz udostępniania publikowanych elektronicznych i zdigitalizowanych dokumentów w najbliższych latach[7]. Czeski narodowy WebArchiv został potraktowany jako integralna część Narodowej Biblioteki Cyfrowej, w skład której wchodzą również inne (zdigitalizowane) dokumenty elektroniczne, objęte odrębnymi projektami jak wcześniej wspomniane Manuscriptorium i Kramerius. Bohemika sieciowe stały się jednocześnie przedmiotem bibliografii narodowej.

Projekt WebArchiv powstał w 2000 r. w ramach programu badań i wdrożeń (R&D) Ministerstwa Kultury Rejestracja, ochrona i udostępnianie krajowych źródeł elektronicznych w sieci Internet. Realizuje go Biblioteka Narodowa RCz (NK ČR) w Pradze przy współpracy z Morawską Biblioteką Ziemską (MZK) i Instytutem Techniki Komputerowej Uniwersytetu im. Masaryka (ÚVT MU) w Brnie. NK ČR jest głównym organizatorem i realizatorem projektu od strony merytorycznej - należy do niej wybór, ocena i opis źródeł, współpraca z wydawcami i pośrednictwo między nimi oraz technicznym zapleczem w Brnie, prezentacja projektu, obsługa serwera udostępniającego archiwum, a także prowadzenie internetowego portalu projektu. ÚVT MU dba o jego techniczną stronę (zbieranie danych w sieci, obsługa dwóch serwerów, rozwój oraz testowanie narzędzi i procedur, utrzymanie sprzętu i oprogramowania), zaś w MZK znajduje się osoba koordynująca te działania. Udało się, co niezmiernie istotne, stworzyć stabilny zespół, który rozwiązuje problem archiwizacji Webu jako zadanie kompleksowe[8]. Zespół obecnie liczy 11 osób - trzy znajdują się w Pradze i osiem w Brnie, przy czym siedmiu pracowników technicznych (w ÚVT MU) pracuje na zmianę w zależności od potrzeb[9]. Projektem kierowała od początku Ludmila Celbová. Obecnie szefem WebArchivu jest Libor Coufal[10]. W ten sposób, powoli, lecz konsekwentnie, buduje się w Czechach archiwum czeskich źródeł informacji internetowej oraz dąży się do ich udostępniania na zasadach uwzględniających realia krajowe.

*   *   *

Realizacja tego zadania od początku nie była prosta. Żeby ściągnąć i zapisać wszystkie (a nawet tylko wybrane) czeskie źródła internetowe, należało być przygotowanym na początku do obsługi i udostępniania zasobu o wielkości setek GB [a później rzędu kilkunastu TB - K.K.-Ž i P.Ž.], przy czym najpierw należało je zidentyfikować, opisać, zindeksować itd.[11] Trzeba było podjąć szereg strategicznych decyzji w sprawach identyfikacji i doboru źródeł, skanowania (penetracji) Internetu i ściągania zasobów sieciowych, ich opisu, archiwizowania, aktualizacji itd.[12] Do tego wszystkiego potrzebne było odpowiednie, wciąż doskonalone oprogramowanie, oraz inne narzędzia pozwalające projekt przetestować, wdrożyć i dalej prowadzić. Jednocześnie należało zmierzyć się z niesprzyjającymi uwarunkowaniami prawnymi, rzutującymi zwłaszcza na udostępnianie archiwizowanych dokumentów, a także zadbać o środki finansowe pozwalające na kontynuację działań. No i oczywiście od samego początku trzeba było śledzić trendy oraz konkretne dokonania zagraniczne, żeby nie tylko uzyskać niezbędną wiedzę i punkt odniesienia, ale też żeby móc później nawiązać międzynarodową współpracę[13].

Jak już wspomniano, czeskie wydawnictwa elektroniczne dostępne on-line (sieciowe) potraktowano jako integralną część narodowego zasobu informacyjnego i bibliografii narodowej, a także Narodowej Biblioteki Cyfrowej. Podstawowym celem projektu WebArchiv było więc zidentyfikowanie i zarchiwizowanie wszystkiego, co było opublikowane (udostępnione) w ramach czeskiego Webu; inaczej mówiąc, należało utworzyć cyfrowe archiwum narodowych stron WWW. Do zakwalifikowania dokumentu sieciowego jako narodowego wystarczy spełnienie jednego z następujących kryteriów: został wydany na terytorium Republiki Czeskiej, jego autorem jest osoba narodowości czeskiej, jest napisany po czesku lub dotyczy "czeskiego środowiska" (tzn. czeskiego państwa lub narodu).

Naturalnie, zdawano sobie sprawę z tego, że z czysto technicznych powodów nie da się tego celu w pełni osiągnąć, ale i z tego, że tak naprawdę nie ma potrzeby opisywać i archiwizować absolutnie wszystkich opublikowanych w Internecie źródeł, chociażby reklam. Zastosowano więc kombinację dwóch metod: zautomatyzowanego "zbierania" całego obszaru narodowego Webu (large-scale automated harvesting, obejmujący również metadane) oraz selektywnego archiwizowania (na podstawie URL najbardziej interesujących źródeł wybranych według przyjętych kryteriów, pozwalających uwzględnić publikacje wartościowe pod względem kulturowym, artystycznym, naukowym i historycznym). Zdecydowano się również na tworzenie kolekcji tematycznych odzwierciedlających ważne sprawy bieżące. W ten sposób w Czechach korzysta się ze wszystkich trzech znanych metod skanowania i archiwizowania Webu.

W przypadku pierwszej z nich, automatycznej, głównym kryterium jest internetowa domena .cz. Wówczas jednak pomija się źródła spełniające kryteria narodowego dokumentu i znajdujące się w innych domenach, jak org., net., eu. Z tego względu opracowano i po raz pierwszy zastosowano narzędzie WebAnalyzer, pozwalające na automatyczne, pełniejsze rozpoznanie narodowych stron WWW. Do tej pory całościowe skanowanie czeskiego Webu odbywało się raz w roku, planuje się dwa razy w zależności od możliwości przechowywania danych. W pierwszym zbiorze (z września 2001 r.) pozyskano ponad 3 mln plików zajmujących 106 520 MB [106,5 GB], zaś w ostatnim (z listopada 2008 r.) - ponad 78,2 mln plików o łącznej objętości 3 900 000 MB [3,9 TB].

W przypadku selektywnego podejścia do archiwizowania Webu stosuje się z góry ustanowione kryteria doboru źródeł w celu uzyskania jakościowej, reprezentatywnej próby "produkcji on-line". Preferowane są tu dokumenty zawierające oryginalne treści o dużej i długotrwałej wartości z punktu widzenia kultury i nauki, jak czasopisma elektroniczne, monografie, materiały konferencyjne, raporty z badań, a nawet niektóre wartościowe weblogi i strony WWW poświęcone wyjątkowym tematom. Uwzględniane są np. portale instytucji, które na swoich stronach publikują sprawozdania, raporty etc. W niemałym stopniu jest brana pod uwagę tzw. szara literatura[14]. Obecnie selektywna archiwizacja obejmuje grubo ponad 800 źródeł (w lutym 2009 r. było ich 830, przy czym w poprzednim roku zanotowano wzrost o ok. 270), które są skanowane regularnie co drugi miesiąc. Jeden taki zbiór wynosi ok. 150 000 MB [150 GB]. Pozyskiwane w ten sposób publikacje są zabezpieczone umowami z wydawcami i są w WebAarchiv ogólnie dostępne, zaś ich opisy zasilają katalog NK ČR, a także czeską bibliografię narodową.

Tematyczna archiwizacja odbywa się według potrzeb i możliwości, uwzględnia wydarzenia ważne dla całego społeczeństwa. Pozwoliła pozyskać sieciowe dokumenty dotyczące np. powodzi (2002), wyborów parlamentarnych (2006) i prezydenckich (2008), Pragi olimpijskiej (2007) a nawet publikacje na głośne tematy kulturalne czy wręcz bibliotekarskie, jak Kronika Dalimila (2005), projektowanie nowego gmachu NK ČR (2007) czy budowa Narodowej Biblioteki Technicznej w Pradze (2007). Powyższe metody oraz związane z nimi narzędzia pozyskiwania, przechowywania i udostępniania sieciowych dokumentów i metadanych były przez cały czas testowane i doskonalone. W artykule ograniczymy się do zwięzłego opisu obecnej sytuacji, począwszy od przybliżenia procedury zbierania danych i kończąc na udostępnianiu archiwizowanych dokumentów sieciowych.

Pozyskiwanie dokumentów i danych z Webu (harvesting) jest - od strony technicznej i ilościowej - zautomatyzowanym procesem, podczas którego są, na podstawie ściśle określonych parametrów i za pomocą specjalnego oprogramowania, ściągane zbiory i metadane, które są następnie indeksowane i układane do cyfrowego archiwum. Obecnie są w tym celu stosowane ogólnie dostępne narzędzia SW z otwartym kodem źródłowym Heritrix (rozwijany przez International Internet Preservation Consortium - IIPC pod kierunkiem amerykańskiej organizacji Internet Archive), na serwerze przeznaczonym do archiwizacji. Robot zbierający dane pracuje w sposób zbliżony do wyszukiwarki internetowej - rozpoczyna od URL zdefiniowanej na wejściu, ściąga zawartość strony i w kodzie HTML wyszukuje odsyłacze prowadzące do kolejnych poziomów Webu; zawartość znalezionych tam stron znów ściąga i układa. Ten proces jest cyklicznie powtarzany. Istotnym parametrem jest tzw. "poziom zanurzenia" w sieci, oznaczający zasięg Heritrixa od wejściowego adresu URL. Heritrix jest elastycznym narzędziem, gdyż można go uzupełniać o szereg modułów, które się wstawia w odpowiednie miejsce. Na przykład można skorzystać z DeDuplicatora, umożliwiającego utworzenie indeksu zbieranych danych (z poprzednich logów lub podczas skanowania Webu) i następnie pominięcie tych stron WWW, których zawartość nie została zmieniona od poprzedniego zbierania. Heritrix ma jednak i wady, do których należy potrzeba fachowego nadzoru podczas ustawiania i przebiegu całego procesu skanowania Webu. Z tego względu realizatorzy WebArchivu rozważają możliwość powiązania Heritrixa z którymś z narzędzi dla administratorów Webu[15]. Udało się już natomiast poszerzyć crawler tak, żeby mógł analizować zawartość stron i identyfikować bohemika, identyfikować dokumenty spełniające określone kryteria i znajdujące się w innych domenach niż .cz.

Pozyskane za pomocą ustawień i filtrów oraz w iteracyjny sposób pliki są wprowadzane w specyficznym formacie ARC, w którym są dalej przechowywane (archiwizowane). Format nadaje plikom odpowiednią strukturę i dołącza do nich metadane. W projekcie WebArchiv rozważana jest możliwość migracji do formatu WARC, który jest bardziej elastyczny[16]. Oprócz formatu ARC, stosowanego na potrzeby archiwizacji, w projekcie WebArchiv są konsekwentnie przestrzegane inne międzynarodowe standardy: do identyfikacji źródeł - ISSN i URN, zaś do opisu dokumentów - MARC21, Dublin Core, XML. Opisy dokumentów sieciowych, wybieranych do czeskiej bibliografii narodowej oraz narodowy zasób archiwalny, są wprowadzane w NK ČR w systemie Aleph, który jest wspierany protokołem Z39.50 na poziomie klienta i serwera oraz OAI-PMH na poziomach repository i harvesting z profilem dla MARC21 i kwalifikowanego Dublin Core. Przykładowy opis dokumentu sieciowego (elektronicznego czasopisma Ikaros) w OPAC NK ČR pokazano w Zał. 1.

Ściągnięte dane (sieciowe pliki i metadane) są układane i przechowywane na specjalnym serwerze podłączonym do krajowej sieci akademickiej CESNET. Obok serwera archiwizacji służy pole dyskowe (redundant disk array - RAID). Udało się nieco poszerzyć pamięć centralnego repozytorium, jednak w bliskiej przyszłości przewiduje się przeniesienie danych do nowych urządzeń z bardzo dużą pamięcią, które mają być zainstalowane w Pradze i Brnie. Jest to niezbędne posunięcie, ponieważ np. w maju 2006 r. zarchiwizowano ok. 26 mln plików o łącznej pojemności 2 TB; obecnie wielkość zasobów już sięga 12-15,5 TB[17]. W tym miejscu warto wspomnieć, że nie wszystkie składniki penetrowanych stron są archiwizowane. WebArchiv gromadzi głównie teksty, aczkolwiek, jeśli tego wymaga kontekst, uwzględnia również elementy graficzne i audiowizualne. Z grubsza przyjęto limit 100 MB dla ściąganego pliku, z kolei dla większości penetrowanych źródeł przyjęto zalecenie ograniczające ściąganie do 5000 plików/źródło (mówimy tu o wielkościach przyjmowanych podczas automatycznego skanowania całej powierzchni Webu - harvesting). Bliżej o kryteriach i parametrach przyjmowanych dla poszczególnych metod pozyskiwania dokumentów sieciowych zob. http://www.webarchiv.cz/kriteria#harvesting.

W celu pełnotekstowej indeksacji dokumentów, archiwizowanych Heritrixem w formacie ARC, stosuje się oprogramowanie Nutchwax, stanowiące nakładkę do systemu wyszukiwawczego Nutch. Nutchwax dodaje do formatu potrzebne metadane, przede wszystkim czasowy stempel. W projekcie WebArchiv narzędzie to jest wykorzystane do indeksowania zbioru źródeł pozyskiwanych na podstawie umów z wydawcami, które można w pełni udostępniać w trybie on-line.

Archiwizowane publikacje sieciowe są udostępniane zdalnie w dwóch trybach - publicznym oraz ograniczonym. W pierwszym chodzi o dostęp kogokolwiek, kiedykolwiek i z dowolnego miejsca do zasobów WebArchivu poprzez Internet. Ten pełny, wolny dostęp dotyczy jednak tylko dokumentów pozyskiwanych podczas selektywnego (ręcznego) wybierania, które zostały objęte umowami z wydawcami. Pozostałe dokumenty, pochodzące głównie z automatycznego skanowania Webu, są udostępniane tylko na wybranych stacjach PC zainstalowanych w Centrum Informacji NK ČR. Można się z nimi zapoznać w celach naukowych i edukacyjnych, nie wolno ich kopiować. W tym drugim trybie można korzystać z całego zasobu WebArchivu. W celu wyszukiwania i udostępniania dokumentów jest obecnie stosowane oprogramowanie Wayback, rozwijane w języku Java i opracowane w 2001 r. w Internet Archive. Jest dostępne na stronach WWW WebArchivu (http://www.webarchiv.cz/vyhledej/). Dokumenty są indeksowane i udostępniane za pomocą URL. Po wpisaniu konkretnego adresu strony, system pokaże listę wszystkich jej archiwizowanych kopii łącznie z datami ich utworzenia (zob. Zał. 2). System może pracować w trzech trybach: Archival URL, Proxy oraz Timeline[18]. Dokumenty opatrzone umową z wydawcami można otworzyć i przeglądać w zwykły sposób. Wayback, niestety, nie pozwala wyszukiwać w pełnych tekstach poprzez słowa kluczowe. Ta niedogodność ma zostać usunięta. Na tej samej stronie WWW WebArchivu można wyszukiwać również w rozległych zasobach organizacji Internet Archive, które są wolno dostępne. Tak samo należy wpisać adres szukanego źródła, tyle że w drugim okienku, zamieszczonym poniżej okienka przeznaczonego dla wyszukiwania w zasobach WebArchivu. Wyszukiwania w WebArchivie oraz w Internet Archive nie są więc zintegrowane, tzn. nie da się wprowadzić jednego klucza (adresu) tylko raz w jednym polu, przeszukiwać oba zasoby równolegle i wyświetlać wyniki łącznie na jednym ekranie.

Pierwszy, eksperymentalny i testujący okres realizacji projektu był trudny. Co prawda, pierwszy dokument sieciowy zarchiwizowano już na początku września 2001 r., niemniej dopiero po trzech latach od podjęcia się przedsięwzięcia uruchomiono pierwszy projekt pilotażowy. Dzięki niemu udało się rozwiązać wiele technicznych i organizacyjnych problemów w zakresie identyfikacji źródeł ("skanowania" Internetu), pozyskiwania oraz archiwizowania krajowych elektronicznych dokumentów sieciowych. Projekt oraz stosowane w nim metody i narzędzia doskonalono przez cały czas. Można zaryzykować twierdzenie, że pierwsze w pełni satysfakcjonujące zbieranie danych z sieci nastąpiło dopiero w 2007 r., kiedy pozyskano 81,3 mln dokumentów o łącznej (skompresowanej) objętości 3,6 TB. Na wejściu znajdowało się 320 000 domen drugiego poziomu, cały proces zajął niespełna miesiąc. Poprzednie zbiory napotykały zawsze jakieś bariery (nastąpiła awaria robota, zabrakło pamięci na dysku lub przyszła powódź)[19].

Szczególny problem stanowiło udostępnianie dokumentów z WebArchivu i to przede wszystkim ze względu na niedostosowanie prawa autorskiego, ale również na braki (lub problemy z wykładnią przepisów) dwóch ustaw o egzemplarzu obowiązkowym, zwłaszcza ustawy dotyczącej drukowanych wydawnictw ciągłych[20]. Pierwszy krok ku lepszemu poczyniono w połowie 2006 r., kiedy weszło w Czechach w życie znowelizowane - zgodnie z Dyrektywą 2001/29/EC - prawo autorskie. Dzięki tej nowelizacji można było już udostępniać cały WebArchiv do celów naukowych i na użytek prywatny, jednak nie w trybie on-line. Zmusza to organizatorów WebArchivu do zawierania umów z poszczególnymi wydawcami dokumentów internetowych. Opierają się one na zapisach Międzynarodowej Deklaracji dot. Przekazywania Dokumentów Elektronicznych do Narodowego Zasobu Bibliotecznego, opracowanej przez CENL oraz FEP w 2000 r. Najpierw zawarto próbnie 12 umów umożliwiających NK ČR w Pradze wyszukiwanie, ściąganie, kopiowanie, archiwizowanie i udostępnianie dokumentów elektronicznych, początkowo jedynie użytkownikom biblioteki (tylko do oglądania i tylko na wybranych terminalach). Wydawca podpisujący umowę zgadza się jednocześnie na włączenie opisów tych dokumentów do czeskiej bibliografii narodowej oraz zobowiązuje się do tworzenia lub zamieszczania danych o dokumencie elektronicznym w standardzie Dublin Core. Obecnie zawarto ponad 1200 umów z wydawcami, których wykaz zamieszczono na stronie http://www.webarchiv.cz/partneri, gdzie można też zobaczyć formularz i inne informacje przeznaczone dla wydawcy zainteresowanego współpracą. Zawieranie takich umów na podstawie kodeksu cywilnego jest jednak uciążliwe dla obu stron. Innym, łatwiejszym sposobem na to, jak obecnie uzyskać zgodę wydawcy, jest skorzystanie z licencji Creative Commons, jeśli wydawca pod nią zamieści zawartość strony WWW. To posunięcie jest zgodne z nowelizacją ustawy o prawie autorskim z 2006 r. i pozwala udostępniać on-line archiwizowane kopie publikacji sieciowych[21].

Nawiązano też kontakt z Ministerstwem Informatyki w celu uzyskania zezwolenia na ściąganie również dokumentów administracji publicznej, które nie są już publicznie dostępne wskutek utraty ważności. Ministerstwo było swego czasu zainteresowane oprogramowaniem stosowanym w WebArchivie (wówczas to był Nedlib harvester) oraz generatorem metadanych. Chciało je wykorzystać do tworzenia elektronicznego katalogu dokumentów administracji publicznej.

Starano się również pozyskiwać informacje o wartościowych stronach WWW (publikacjach sieciowych). Wydawca ubiegający się o przydzielenie numeru ISSN powinien wypełnić formularz zamieszczony na stronie internetowej Czeskiego Ośrodka Narodowego ISSN oraz podać w nim również dane o wydawanym przez siebie dokumencie elektronicznym (adres strony WWW). Te dane są potem przekazywane do WebArchivu. Jednocześnie każdy obywatel może ze strony WWW WebArchivu przesłać propozycję archiwizowania źródła, które uważa z jakichś względów za interesujące.

Przełomowym okazał się rok 2005, kiedy po pięciu latach zmagań osiągnięto pierwsze praktyczne wyniki. Udostępniono część cyfrowego archiwum w trybie on-line. Chodzi właśnie o te źródła elektroniczne, publikowane przez wydawców, z którymi NK ČR podpisała ww. umowy. Ten sukces został należycie doceniony podczas INFORUM 2006, na którym projekt WebArchiv otrzymał nagrodę jako jeden z najważniejszych i najlepszych produktów, usług lub przedsięwzięć, związanych z elektronicznymi źródłami informacji, zaistniałych w roku 2005.

Kolejnym, bardzo istotnym wydarzeniem było przyjęcie organizatorów WebArchivu do międzynarodowego konsorcjum IIPC (International Internet Preservation Consortium) w 2007 r. Konsorcjum powstało w 2003 r. i jego misją jest gromadzenie i przechowywanie wiedzy i informacji opublikowanych w Internecie tak, żeby były dostępne dla przyszłych generacji, a także wspieranie ogólnoświatowej wymiany tych informacji oraz doświadczeń. W tym celu IIPC łączy instytucje zajmujące się archiwizacją Webu i wspiera międzynarodową współpracę na tym polu. Dzięki członkostwu w IIPC projekt WebArchiv przekroczył granice Czech i uzyskał międzynarodowe wsparcie[22]. Już w 2008 r. przedstawiciele NK ČR włączyli się do prac rozwijanych w ramach konsorcjum, zwłaszcza w grupie roboczej Preservation, w której przygotowywane są zalecenia dotyczące trwałego przechowywania webowych archiwów. Zalecenia te wywodzą się z już istniejących standardów przechowywania dokumentów elektronicznych. Prawdę mówiąc, inicjatorzy WebArchivu wkroczyli na forum międzynarodowe już wcześniej. Celem ich było opracowanie wspólnych zaleceń dotyczących kryteriów doboru dokumentów podczas całościowego i selektywnego skanowania Webu. Stało się to w latach 2005-2006, kiedy koordynowali projekt Culture skupiający biblioteki narodowe Czech, Estonii i Słowenii.

Innym bardzo obiecującym, istotnym szczególnie dla bibliotek narodowych, obszarem efektywnego uczestnictwa WebArchivu w pracach IIPC jest zbieranie z całego obszaru Webu dokumentów sieciowych, znajdujących się poza narodową domeną (tzw. top level domain - TLD). NK ČR tym problemem zajmuje się już od kilku lat i prawdopodobnie w 2008 r. była pierwszą instytucją, która mogła się na tym polu pochwalić praktycznymi osiągnięciami. Otóż udało jej się zakończyć opracowanie pierwszej wersji WebAnalyzera (dodatkowego modułu do Heritrixa), a następnie przetestować go w ramach pierwszego, całościowego skanowania Webu przeprowadzonego poza domeną .cz. Wyniki okazały się bardziej niż zadowalające. Przedstawiono je na corocznym seminarium IWAW (International Web Archiving Workshop) w duńskim Aarhus we wrześniu 2008 r., gdzie spotkały z dużym zainteresowaniem. NK ČR otrzymała kilka propozycji współpracy oraz ofertę kierowania w roku 2009 międzynarodowym projektem w ramach IIPC[23].

Obecnie WebArchiv współpracuje również przy nowym europejskim projekcie LiWA (Liwing Web Archives - http://www.liwa-project.eu/) związanym z rozwojem technologii potrzebnych do penetracji, pozyskiwania i archiwizowania dokumentów sieciowych, tworzonych na różne nowe sposoby[24]. Projekt, przewidziany na luty 2008 - styczeń 2011 r., jest finansowany przez Wspólnotę Europejską ze środków jej siódmego programu ramowego. Uczestniczy w nim ośmiu partnerów (instytucje badawcze, archiwa webowe) z pięciu krajów europejskich.

O dalszych losach WebArchivu zadecydują głównie dwa czynniki: legislacyjny oraz finansowy, gdyż świadomości wagi projektu, chęci do działania i kompetentnych pracowników nie brakuje. O ograniczeniach prawnych, rzutujących na publiczne udostępnianie zarchiwizowanych publikacji sieciowych, wspominaliśmy już wcześniej. W tym miejscu warto jeszcze dodać, że ani zawieranie umów z wydawcami, ani korzystanie z licencji CC nie stanowi idealnego rozwiązania dla udostępniania archiwizowanych zasobów internetowych[25]. Być może zaradzi tu ustawa o egzemplarzu obowiązkowym publikacji sieciowych, której projekt skierowano do Ministerstwa Kultury RCz.

W drugim przypadku chodzi o to, żeby zapewniono stabilne finansowanie WebArchivu i to na niezbędnym poziomie. Projekt finansowano prawie w stu procentach z corocznych grantów, co było w miarę do przyjęcia na etapie konceptualizacji, prób i testowania. Jeszcze przed kilkoma laty realizatorzy projektu musieli się zadowolić przeciętnie 600 tys. koron na rok (na HW i usługi Instytutu Techniki Komputerowej Uniwersytetu im. Masaryka) oraz dwoma pracownikami w NK ČR zatrudnionymi w komórce zajmującej się elektronicznymi źródłami on-line. Do pełnego wdrożenia i dalszej eksploatacji WebArchivu taki sposób zapewniania środków nie wystarczał. Sytuacja nieco się poprawiła, gdyż w NK ČR w Pradze nad projektem pracują już trzy osoby oraz w dwóch współpracujących instytucjach w Brnie - osiem. Poszerzono również centralne repozytorium do archiwizowania danych pozyskiwanych w ramach projektów Manuscriptorium, Kramerius oraz WebArchiv. Perspektywy rysują się obiecująco, ponieważ Ministerstwo Kultury wraz z całym rządem zdecydowało włączyć Narodową Bibliotekę Cyfrową do swoich strategicznych priorytetów, a także pozwolić, aby ubiegała się o środki ze Zintegrowanego Programu Operacyjnego - IOP (Smart Administration). W NK ČR już przygotowano projekt IOP (nr 116) Utworzenie Narodowej Biblioteki Cyfrowej. W jego ramach wstępnie przewidziano dla WebArchivu możliwość pozyskiwania i archiwizowania 5 mld plików (221 TB "surowych" danych, przechowywanych na szybkich dyskach, umożliwiających efektywne udostępnianie) oraz utworzenie dla całej NBC wiarygodnego repozytorium cyfrowego, certyfikowanego wewnętrznym i zewnętrznym audytem. Zostałoby ono ulokowane w dwóch miejscach - w Pradze i Brnie[26]. Całkowity budżet całego projektu w IOP zaplanowano na 706 mln koron (85% wsparcie z zewnątrz, 15% udział własny).

Jeśli by chcieć krótko podsumować całe przedsięwzięcie WebArchiv, to trzeba przyznać, że tempo tworzenia, opracowania, archiwizowania i udostępniania narodowego zasobu sieciowych wydawnictw elektronicznych w Czechach nie było w pierwszych latach imponujące. Borykano się z problemami technicznymi, a nawet losowymi (powódź). Nie pokonano do końca barier prawnych oraz nie zapewniono stabilnego finansowania projektu na pożądanym poziomie. Najważniejsze jest jednak to, że projekt WebArchiv został podjęty, przemyślany, przetestowany i wdrożony. Udało się już - co najważniejsze z punktu widzenia użytkowników - udostępnić archiwizowane dokumenty, chociaż nie wszystkie w pełni publicznie (on-line). Projekt stał się integralną częścią Narodowej Biblioteki Cyfrowej, jest kontynuowany i doskonalony. Uczestniczy efektywnie w międzynarodowej współpracy nad archiwizacją zasobów internetowych. Czeskie doświadczenia uzyskane podczas jego tworzenia oraz wdrażania mogą być niezwykle cenne i przydatne dla tych, którzy podejmą się podobnego przedsięwzięcia w Polsce. Ci zainteresowani bliżej projektem będą mieli ułatwione zadanie, gdyż WebArchiv ma własne, rozbudowane i na bieżąco aktualizowane strony WWW, również w wersji angielskiej. Mogą się tam m.in. zapoznać z licznymi publikacjami oraz sprawozdaniami z projektów i programów, które dotyczyły lub wciąż dotyczą WebArchivu, w tym ze sprawozdaniami za lata 2006-2008 z projektu Ochrona i trwałe udostępnianie źródeł internetowych jako części narodowego dziedzictwa kulturowego (Ochrana a trvalé zpřístupnění webových zdrojů jako součásti národního kulturního dědictví. VAV [Věda a Výzkum] - DC06P02OUK003).

Przypisy

[1] Artykuł ten stanowi uaktualnienie i rozwinięcie tekstu P. Žáka, opublikowanego pod tym samym tytułem w FIDES - Biuletyn Bibliotek Kościelnych 2006, nr 1-2 (22-23), s. 47-56. W tym celu autorzy wykorzystali nowsze publikacje, przede wszystkim:
BROKEŠ, A. Projekt WebArchiv - archiv českého webu. Zpravodaj ÚVT MU. 2008, R. 18, č. 4, s. 10-13. Artykuł jest dostępny również w wersji elektronicznej pod adresem: http://www.ics.muni.cz/zpravodaj/articles/578.html.
GRUBER, L. Přístup k národnímu webovému archivu. Knihovnický Zpravodaj Vysočina [on-line]. 2009, č. 1 [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://kzv.kkvysociny.cz/Default.aspx?id=1126.
GRUBER, L., SÍBEK, T., COUFAL, L. Archivace webových stránek v českém prostředí aneb Jak funguje WebArchiv. Čtenář. 2009, R. 61, č. 5, s. 163-166. Artykuł znajduje się także w wersji elektronicznej pod adresem:
http://ctenar.svkkl.cz/clanky/2009-roc-61/05-2009.htm.
Autorzy wykorzystali również inne materiały i informacje, zamieszczone na stronach portalu WebArchiv (http://www.webarchiv.cz), a także w sprawozdaniu rocznym za 2008 r. Biblioteki Narodowej w Pradze.

[2] Zainteresowanych tym tematem odsyłamy do wcześniejszych artykułów P. Žáka w Biuletynie EBIB:
Žák, P. Sąsiedztwo warte współpracy. Cz. 1. Czeskie biblioteki w świetle źródeł internetowych. Biuletyn EBIB [on-line]. 2006, nr 8 (78) [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://www.ebib.info/2006/78/a.php?zak. ISSN 1507-7187.
Žák, P. Sąsiedztwo warte współpracy. Cz. 2. Biuletyn EBIB [on-line]. 2007, nr 5 (78) [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://www.ebib.info/2007/86/a.php?zak. ISSN 1507-7187.

[3] Informację o "Web archiving" w poszczególnych krajach zob. np. pod adresem http://www.nla.gov.au/padi/topics/92.html.

[4] Chociażby na spotkaniu przedstawicieli bibliotek, otrzymujących egzemplarz obowiązkowy, które miało miejsce w Bibliotece Narodowej w Warszawie na początku czerwca 2007 r. Mówiono tam m.in. o potrzebie stworzenia centralnego repozytorium gazet i czasopism elektronicznych. Notatkę ze spotkania można znaleźć w witrynie elektronicznej BN w rubryce "Aktualności" na stronie http://www.bn.org.pl/index.php?id=1&archiwum.
Również ks. Krzysztof Gonet, zamieszczając w 2007 r. pierwotny tekst niniejszego artykułu w Biuletynie FIDES, postawił pytanie: Może Federacja FIDES powinna obecnie poważnie podjąć temat archiwizacji katolickich stron internetowych w Polsce, opierając się na wzorcach z Czech?
Pierwsze kroki w kierunku archiwizowania publikacji internetowych poczyniła już BN w Warszawie. Z początkiem 2008 r. została członkiem International Internet Preservation Consortium i jej przedstawiciele uczestniczyli w Zgromadzeniu Generalnym IIPC w kwietniu 2008 r. w Canberrze (Australia) oraz w warsztatach informatycznych w bibliotece uniwersyteckiej w Aarhus w Danii, zorganizowanych przez IIPC we wrześniu 2008 r. W tym samym roku BN zaimplementowała oprogramowanie Heritrix, służące do archiwizacji stron internetowych oraz wykonała pierwsze testowe zapisy archiwalne (zob. http://www.bn.org.pl/download/document/1241431913.doc - w części dot. IIPC).

[5] GRUBER, L., SÍBEK, T., COUFAL, L., dz. cyt., s. 163.

[6] DAY, M. Collecting and preserving the World Wide Web [on-line]. [Bristol]: John Information Systéme Committee, February 25, 2003. [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://www.jisc.ac.uk/uploaded_documents/archiving_feasibility.pdf.

[7] Stwierdzono m.in., że zasadniczą sprawą jest zabezpieczenie środków (min. 214 mln koron na pięć lat). To mocne akcentowanie potrzeby materialnego zabezpieczenia zamierzonych działań wynikało z nienajlepszych doświadczeń czeskich bibliotekarzy, wynikających z udziału w długookresowych programach i projektach. Bliżej zob.
ŽÁK, P. Sąsiedztwo warte współpracy. Cz. 2.
Nie bez powodu też zwracano uwagę na uwarunkowania prawne, gdyż kwestia egzemplarza obowiązkowego publikacji elektronicznych (sieciowych) nie została w Czechach uregulowana. Nie rozwiązano też odpowiednio problemu udostępniania tych wydawnictw w świetle prawa autorskiego.

[8] GRUBER, L., SÍBEK, T., COUFAL, L., dz. cyt., s. 163.

[9] COUFAL, L. Každý rok nastává sklizeň českého internetu. W: 30minut.cz. [on-line]. [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://www.30minut.cz/libor-coufal-kazdy-rok-nastava-sklizen-ceskeho-internetu.

[10] Bliżej o L. Coufale zob. http://www.linkedin.com/in/liborcoufal.

[11] Zob. m.in. CELBOVÁ, L., SIMONOVÁ, M., ŽABIČKA, P. WebArchiv - od výzkumu k (tvrdé) realitě. Knihovny Současnosti 2003, [R. 11] s. 70-81. ISBN 80-86249-23-9.

[12] Biblioteki podchodzą do tych spraw różnie. I tak australijska BN archiwizuje tylko te źródła internetowe, które wcześniej oceni i zakwalifikuje bibliotekarz. Dzięki takiemu podejściu australijski WebArchiv liczył po prawie 10 latach tylko ok. 8500 adresów. Wersją takiego podejścia może być tworzenie tematycznych zbiorów źródeł internetowych, np. dokumentów opublikowanych w Internecie w czasie wyborów prezydenckich w Stanach Zjednoczonych. Takie jakościowe podejście wymaga jednak dużego nakładu pracy. Dlatego też większość bibliotek budujących narodowe web-archiwa zdecydowała się na zautomatyzowane, całościowe skanowanie i archiwizowanie wszystkich dokumentów spełniających te kryteria, które można stosować automatycznie. Można też przyjąć podejście mieszane, korzystające z obu możliwości. Bliżej zob. referat na konferencję CASLIN 2005: CELBOVÁ, L. Archivace a zpřístupnění elektronických online zdrojů v evropském kontextu [on-line]. [Dostęp 3 października 2009]. Dostępny w World Wide Web: http://www.webarchiv.cz/files/dokumenty/seminar/celbova.doc.

[13] Szerzej o problematyce archiwizacji dokumentów sieciowych w Czechach i na świecie zob. CELBOVÁ, L. [i in.] Archivace webu. Praha: Národní knihovna ČR, 2008, s. 45.

[14] Nie są natomiast na ogół uwzględniane webowe archiwa drukowanych czasopism, przychodzących do NK ČR jako egzemplarze obowiązkowe. Archiwa te są bowiem traktowane jako zasoby, które nie zawierają dokumentów oryginalnych.

[15] Na przykład Netarchive Suite, opracowany pierwotnie dla Biblioteki Królewskiej w Kopenhadze.
Bliżej zob. BROKEŠ, A., dz. cyt., s. 3; GRUBER, L., SÍBEK, T., COUFAL, L., dz. cyt., s. 163.

[16] Format WARC m.in. pozwala dowolnie rozszerzać pliki o metadane zapisane w schemacie XML. Generalnie lepiej odpowiada dużym możliwościom Heritrixa i DeDuplicatora oraz wymogom stawianym przez bibliotekarzy.

[17] Na stronie WWW WebArchivu podano w jednym miejscu wielkość 15,5 TB, zaś w innym ok. 12 TB. Tę ostatnią liczbę podaje również w wywiadzie z lutego 2009 r. L. Coufal, Každý rok nastává sklizeň českého internetu... Z tabeli pokazującej wyniki zbierania dokumentów z całego obszaru Webu (harvesting - zob. http://www.webarchiv.cz/celoplosne-sklizne/) wynika, że zajmują one do chwili obecnej ok. 12,7 TB. Resztę zapewne zajmują dokumenty pozyskane w wyniku zbierania selektywnego oraz tematycznego.

[18] Tzn., że system za pomocą JavaScriptu zmieni odsyłacze URL na stronie tak, że odsyłają one z powrotem do archiwum; system się zachowuje jak proxy server (trudno wówczas zmieniać czasowe wersje); system pokazuje oś czasu - ta ostatnia funkcja znajduje się w stadium eksperymentu.

[19] Por. BROKEŠ, A., dz. cyt., s. 2.

[20] Bliżej zob. CELBOVÁ, L. Český web a povinný výtisk - jde to spolu dohromady? Knihovna [on-line]. 2009, R. 19, č. 2, s. 5-15 [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://knihovna.nkp.cz/knihovna82/82005.htm. ISSN 1801-3252.

[21] Obecnie licencje CC są w największej mierze wykorzystywane właśnie dla dzieł rozpowszechnianych w Internecie. Republika Czeska stała się w połowie kwietnia 2009 r. pięćdziesiątym drugim krajem z narodową lokalizacją licencji CC. O wprowadzaniu do Czech licencji CC zob. GRUBER, L. Licence Creative Commons a perspektiva jejich zavedení do českého prostředí. Ikaros [on-line]. 2008, R. 12, č. 3 [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://www.ikaros.cz/node/4612. ISSN 1212-5075.
Informacje o licencjach CC i ich stosowaniu w Czechach można też uzyskać na stronie WebArchivu: http://www.webarchiv.cz/ccinfo/.

[22] Bliżej zob. CELBOVÁ, L., COUFAL L. WebArchiv se účastní mezinárodní spolupráce při archivaci webu. Ikaros [on-line]. 2007, R 11, č. 5 [Dostęp 17 września 2009]. Dostępny w World Wide Web: http://www.ikaros.cz/node/4085. ISSN 1212-5075.

[23] Bliżej zob. sprawozdanie z projektu za 2008 r.: Ochrana a trvalé zpřístupnění webových zdrojů jako součásti národního kulturního dědictví [on-line]. [Dostęp 3 października 2009]. Dostępny w World Wide Web: http://www.webarchiv.cz/files/dokumenty/zpravy/zprava2008.pdf.

[24] Dynamiczne strony, flash, JavaScript, multimedia komplikują zbieranie i archiwizowanie dokumentów sieciowych. Trzeba więc doskonalić narzędzia, które pozwolą to robić w odpowiedniej jakości.

[25] GRUBER, L., SÍBEK, T., COUFAL, L., dz. cyt., s. 165.

[26] NK ČR w Pradze do tej pory nie udało się zbudować wiarygodnego repozytorium cyfrowego, które byłoby w stanie przejść międzynarodową certyfikacją. Zob. bliżej: Národní knihovna České republiky. Výroční zpráva 2008. Praha: Národní knihovna, 2009, s. 7, 26. Dokument dostępny również on-line: http://www.nkp.cz/files/vz2008.pdf.

 Początek strony



Webarchiv - czeski projekt archiwizacji publikacji internetowych / Katarzyna Kwiatkowska-Žák, Petr Žák // W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska - Nr 7/2009 (107) październik. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2010. - Tryb dostępu: http://www.ebib.info/2010/107/a.php?kwiatkowska_zak. - Tyt. z pierwszego ekranu. - ISSN 1507-7187