ebib 
Nr 6/2010 (115), Nowy wymiar zabezpieczania zasobów. Artykuł
 poprzedni artykuł następny artykuł   

 


Maciej Brzeźniak
Poznańskie Centrum Superkomputerowo-Sieciowe

Usługa Powszechnej Archiwizacji i jej zastosowanie w bibliotekach naukowych do zabezpieczenia i archiwizacji danych


Wprowadzenie

Tempo przyrostu danych produkowanych w systemach komputerowych przechodzi najśmielsze oczekiwania. W 2006 r. świat zinformatyzowany wyprodukował ok. 161 exabajtów danych [1 exabajt=1000 petabajtów=1000 x 1000 terabajtów], według organizacji IDC http://www.idc.com (cytowanej przez „New York Times”). Prognozy tej samej organizacji z 2009 r. mówiły z kolei o wielkości 1250 exabajtów w roku 2010. Jednak już na początku 2010 r. dane [IDC, The Economist] zostały skorygowane do wartości 1800 exabajtów. Na gruncie polskim do największych producentów danych należą biblioteki i archiwa cyfrowe, instytuty i ich projekty badawcze, uczelnie i jednostki naukowe oraz akademickie centra komputerowe. Zapotrzebowanie bibliotek cyfrowych na przestrzeń do przechowywania danych jest wprost proporcjonalna do wielkości zbiorów w wersji oryginalnej oraz zdolności do ich digitalizacji poprzez zastosowanie wydajnych skanerów wysokiej rozdzielczości. A możliwości te są duże, co daje efekt w postaci olbrzymiego zapotrzebowania na przestrzeń przechowywania danych. Podczas cyklu warsztatów w czerwcu 2010 r. dotyczących Usługi Powszechnej Archiwizacji, przeprowadzona została ankieta dla potencjalnych użytkowników usługi – biblioteki cyfrowe określiły swoje zapotrzebowanie na przechowywanie danych jako sięgające rzędu dziesiątek lub kilkuset terabajtów rocznie.

Tymczasem skuteczne i wiarygodne zabezpieczenie lub archiwizacja przez instytucje tak dużych ilości danych jest sporym wyzwaniem. Proces ten wymaga bowiem odpowiednich zasobów sprzętowych i programowych, włączając w to urządzenia do przechowywania danych, takie jak: systemy dyskowe i taśmowe oraz oprogramowanie do zarządzania danymi, systemy kopii zapasowych i archiwizacji lub systemy hierarchicznego przechowywania (ang. HSM – hierarchical storage system). Wymagana jest także specjalistyczna wiedza i doświadczenie z dziedziny zabezpieczenia i przechowywania danych oraz zarządzania systemami informatycznymi.

Nakłady finansowe związane z długoterminowym przechowywaniem danych nie kończą się wraz z zakupem sprzętu czy oprogramowania, konieczne jest bowiem ponoszenie kosztów związanych z utrzymaniem systemu, włączając w to koszty osobowe, m.in. wynagrodzenie administratorów procesu archiwizacji i wykonywania kopii zapasowych. Dodatkowo kosztuje utrzymanie sprzętu do przechowywania danych, należy także przewidzieć nakłady związane z serwisowaniem elementów systemu informatycznego czy zapewnieniem tym systemom właściwych warunków pracy przez odpowiednie zasilanie, klimatyzację itp. Sporym problemem jest także przeciwdziałanie skutkom starzenia się nośników danych. Przykładowo, trwałość dysków twardych i płyt CD oraz DVD wynosi na ok. 5–10 lat, pamięci typu flash osiągają trwałość rzędu 20 lat, a nośniki taśmowe ok. 30 lat. Niezależnie od rodzaju nośnika jego żywotność jest ograniczona. W razie konieczności długoterminowego przechowywania danych lub wieczyście – a jest to typowe w przypadku bibliotek cyfrowych – konieczna jest migracja danych na nowe nośniki, po upływie określonego czasu. Poza starzeniem się fizycznym nośniki przechowujące dane starzeją się technologicznie. Zapewnienie długookresowego przechowywania danych wymaga więc migracji między technologiami przechowywania, w praktyce bowiem po upływie 5–10 lat od zapisania danych na nośniku określonego typu dostęp do czytnika mediów danej technologii może okazać się trudny, niemożliwy lub bardzo kosztowny. Z uwagi na powyżej wspomniane trudności oraz inne problemy, których nie poruszono w niniejszym artykule, proces skutecznego i bezpiecznego zabezpieczenia danych może przekraczać możliwości instytucji, szczególnie tych, dla których głównym obszarem działania nie są systemy informatyczne.

Projekt PCSS

Poznańskie Centrum Superkomputerowo Sieciowe realizuje od lat projekt PLATON Platformy Obsługi Nauki (POIG.02.03.00-00-028/0), który zakłada stworzenie i uruchomienie pięciu usług działających w oparciu o sieć PIONIER. Usługami tymi są:

  1. Usługa wideokonferencji.
  2. Usługa eduroam.
  3. Usługi kampusowe.
  4. Usługa powszechnej archiwizacji.
  5. Usługa naukowej interaktywnej telewizji HD.

Dla bibliotekarzy najbardziej interesująca może być Usługa Powszechnej Archiwizacji, która wychodzi naprzeciw potrzebom zabezpieczania danych w instytucjach naukowych, w tym w bibliotekach cyfrowych. Usługa oparta jest na oprogramowaniu Krajowego Magazynu Danych (Projekt rozwojowy Nr R02 055 03 MNiSW), które zostało wdrożone w redundantnej (nadmiarowej), wysoko wydajnej i skalowalnej infrastrukturze serwerów i systemów przechowywania danych.

Funkcjonalność Krajowego Magazynu Danych

Krajowy Magazyn Danych (KMD) oferuje dwie usługi wydajnego, wiarygodnego i bezpiecznego przechowywania danych. Dane użytkowników przechowywane są w postaci wielu fizycznych replik danych rozmieszczonych w rozproszonych geograficznie lokalizacjach. Pierwsza usługa to tzw. wirtualny system plików dostępny dla użytkowników zdalnie za pośrednictwem protokołów SCP/SFTP, HTTP i WebDAV (oraz GridFTP). Dane użytkowników zorganizowane są w wirtualnym systemie plików w plikach i katalogach, analogicznie do przechowywania ich na dysku lokalnym lub sieciowym. Dane te mogą być umieszczane w wirtualnym systemie plików ręcznie, np. poprzez użycie klientów usługi SCP/SFTP (np. WinSCP), WebDAV (przeglądarka internetowa z odpowiednimi modułami) lub z wykorzystaniem zewnętrznych narzędzi, takich jak Bacula http://www.bacula.org/en/[1] lub Amanda http://www.amanda.org/. W ramach drugiej usługi opracowano aplikację klienta usługi kopii zapasowych i archiwacji, która pozwala na automatyzację procesu wykonywania kopii zapasowych, np. poprzez cykliczne wykonywanie zdefiniowanego harmonogramu kopii danych, a także optymalizację tego procesu, m.in. przez:

  • wsparcie dla tzw. kopii przyrostowych,
  • możliwość równoległego przesyłania danych przez sieć wieloma strumieniami (wątkami) od klienta do serwera usługi,
  • możliwość składowania wielu replik danych na wielu serwerach jednocześnie.

Dodatkowo, aplikacja klienta backupu/archiwizacji może realizować szyfrowanie i kryptograficzną kontrolę integralności danych składowanych w systemie. Co istotne, klucze kryptograficzne pozostają znane wyłącznie użytkownikowi końcowemu. Szyfrowanie i deszyfrowanie danych użytkownika odbywa się całkowicie po stronie klienta, dzięki czemu żadna porcja danych nie opuszcza systemu komputerowego użytkownika bez uprzedniego zaszyfrowania.

Architektura i mechanizmy systemu KMD zapewniają automatyczną replikację danych użytkownika. Gwarantuje to trwałość zapisanych w systemie danych nawet w przypadku zniszczenia jednego z centrów przechowywania. Replikacja zapewnia także wysoką dostępność danych – mogą być one odczytywane nawet w przypadku awarii jednego z węzłów systemu – a także pozwala optymalizować wydajność operacji na danych, do ich odczytu z systemu wykorzystywana jest najszybsza, np. najbliższa geograficznie replika.

Infrastruktura Usługi Powszechnej Archiwizacji

Infrastruktura Usługi Powszechnej Archiwizacji, w której została wdrożona architektura Krajowego Magazynu Danych składa się z redundantnych, rozproszonych geograficznie elementów (patrz rys. 1). Podstawowym składnikiem tej infrastruktury są systemy przechowywania, w tym macierze dyskowe i serwery plików o łącznej pojemności około 2 petabajtów oraz systemów przechowywania taśmowego o pojemności 12,5 petabajta. Poza systemami przechowywania danych na infrastrukturę składają się serwery dostępowe, bazodanowe oraz serwery dla oprogramowania HSM – łącznie ponad 70 maszyn. Elementy instalacji rozlokowane są w dziesięciu miastach Polski i połączone za pomocą wydajnych łączy sieciowych w PIONIER.

Rysunek 1. Schemat infrastruktury Usługi Powszechnej Archiwizacji
Rysunek 1. Schemat infrastruktury Usługi Powszechnej Archiwizacji. Copyright autor.

Infrastruktura Usługi Powszechnej Archiwizacji, w której wdrożona jest skalowalna architektura Krajowego Magazynu Danych, pozwala na oferowanie usług przechowywania danych, które odpowiadają potrzebom użytkowników w zakresie pojemności systemu, wydajności składowania, trwałości danych w systemie, wiarygodności usługi, a także bezpieczeństwa i poufności danych.

Dzięki zastosowaniu dyskowych i taśmowych technologii przechowywania użytkownicy usługi mają do wyboru różne klasy usługi przechowywania związane z typem medium przechowującego dane, np. dyski vs taśmy. Ponadto, możliwe jest wykorzystanie przez użytkowników różnego poziomu (minimalna liczba i odległość geograficzna replik) i schematów replikacji (synchroniczna vs asynchroniczna). Użytkownicy mogą skorzystać z funkcjonalności wirtualnego systemu plików lub aplikacji klienta kopii zapasowych i archiwizacji, co daje możliwość dostosowania usługi do wymagań funkcjonalnych środowiska i aplikacji użytkownika. Z kolei rozproszenie geograficzne systemu oraz jego dostępność poprzez sieć PIONIER i połączone z nią sieci miejskie (tzw. sieci MAN) pozwala na efektywne składowanie danych w systemie i uzyskiwanie do nich dostępu. Wielu docelowych użytkowników usługi podłączonych jest do wspomnianych sieci lub dysponuje łączami do sieci Internet pozwalającymi na wydajny dostęp do infrastruktury usługi przechowywania danych. Dotyczy to m.in. bibliotek cyfrowych.

Zastosowanie Usługi Powszechnej Archiwizacji dla bibliotek naukowych

Usługa Powszechnej Archiwizacji rozwiązuje większość problemów związanych ze skutecznym i wiarygodnym zabezpieczeniem lub archiwizacją dużych ilości danych, z którymi borykaliby się użytkownicy, gdyby realizowali zabezpieczenie i archiwizację danych na własną rękę. Konsorcjum realizujące usługę bierze na siebie m.in. problem migracji danych między technologiami przechowywania oraz zapewnienie czytelności danych składowanych na nośnikach mimo upływu czasu. Użytkownik nie musi dbać o tego typu niskopoziomowe zagadnienia związane z technologiami przechowywania danych z uwagi na fakt, że korzysta z abstrakcyjnych interfejsów do usługi przechowywania i archiwizacji danych, jakimi są wirtualny system plików lub usługa kopii zapasowej i archiwizacji.

Użytkownik Usługi Powszechnej Archiwizacji nie musi również przeznaczać znacznych środków finansowych na utrzymanie systemu przechowywania i zapewnienie mu właściwych warunków pracy – te problemy rozwiązywane są po stronie konsorcjum świadczącego usługę. Podobnie od użytkownika nie jest wymagana specjalistyczna wiedza ekspercka i doświadczenie związane z systemami zabezpieczenia i przechowywania danych. Mechanizmy klienta usługi kopii zapasowych i archiwizacji w dużym stopniu wspomagają realizację procesu zabezpieczenia danych, m.in. poprzez jego automatyzację i zapewnienie poufności danych wskutek realizacji mechanizmów kryptograficznych po stronie klienta. Wykorzystanie Usługi Powszechnej Archiwizacji do zabezpieczenia i archiwizacji danych bibliotek naukowych jest możliwe na wiele sposobów. Poniżej przedstawiono przykładowe scenariusze wykorzystania usługi.

Po pierwsze, systemy zarządzania treścią (ang. CMS – content management system) użytkowane przez wiele bibliotek naukowych mogą zostać zintegrowane z usługą poprzez wykorzystanie jednego z interfejsów dostępu do wirtualnego systemu plików (SCP/SFTP, HTTP/WebDAV). Umożliwia to m.in. przechowywanie archiwalnych wersji plików (publikacji, dokumentów) w wirtualnym systemie plików. Dzięki wbudowanym w usługę przechowywania mechanizmom te wersje plików będą składowane w sposób redundantny, bezpieczny i wiarygodny. Archiwalne wersje danych biblioteki zabezpieczone zostaną w ten sposób przed ewentualnym przypadkowym usunięciem, np. wskutek błędu ludzkiego lub problemu w systemie zarządzania treścią.

Po drugie, obszerne pliki zawierające publikacje lub dzieła w wysokiej rozdzielczości, które nie są umieszczane w systemach CMS i portalach dla użytkowników bibliotek, m.in. z uwagi na ich olbrzymią objętość mogą być archiwizowane i/lub zabezpieczane przed utratą poprzez składowanie ich w infrastrukturze przechowywania danych Usługi Powszechnej Archiwizacji. Co istotne, proces wykonywania kopii tego typu danych może być zautomatyzowany za pomocą aplikacji klienta. Możliwe jest np. zdefiniowanie harmonogramu archiwizacji lub zabezpieczenia danych w taki sposób, by proces kopiowania danych został skoordynowany z procesem pozyskiwania skanów z oryginałów.

Podsumowanie

Usługa Powszechnej Archiwizacji, w ramach której wdrożona została architektura Krajowego Magazynu Danych, zapewnia wydajne i bezpieczne przechowywanie danych. Jedną z podstawowych technik zapewnienia wiarygodności przechowywania danych i ich trwałości oraz niezawodności usługi przechowywania jest replikacja danych w rozproszonym środowisku przechowywania oraz wykorzystanie redundantnych komponentów infrastruktury. Usługa dostarcza użytkownikom rozmaite interfejsy dostępu do danych składowanych w wirtualnym systemie plików oraz możliwość automatyzacji i optymalizacji procesu wykonywania kopii zapasowych i archiwalnych poprzez wykorzystanie aplikacji klienta opracowanego w projekcie KMD. Wykorzystanie usług systemu zwalnia użytkowników z konieczności desygnowania znacznych zasobów na potrzeby zabezpieczenia i archiwizacji danych. Interfejsy i funkcjonalność systemu pozwala na efektywne wykorzystanie usługi na potrzeby zabezpieczenia i archiwizacji danych bibliotek naukowych.

Status projektu

To, co dla bibliotekarzy wydaje się najważniejsze, to terminy udostępnienia usługi. W sierpniu i wrześniu 2010 r. realizowano dostawy sprzętu stanowiącego infrastrukturę Usługi Powszechnej Archiwizacji projektu PLATON. Uruchomienie i konfiguracja sprzętu oraz programowania, a także wdrożenie oprogramowania KMD w tej infrastrukturze potrwają do końca października 2010 r. Do końca 2010 r. planowane jest zakończenie testów infrastruktury oraz wdrożonego w niej oprogramowania KMD i produkcyjne uruchomienie usługi. Równolegle prowadzone są testy wewnętrzne oprogramowania KMD wdrażanego w ramach usługi na instalacji pilotowej systemu KMD, niezależnej od wdrażanej obecnie infrastruktury projektu PLATON. Testy te, prowadzone wewnątrz konsorcjum realizującego Usługę Powszechnej Archiwizacji, prowadzone są od jesieni 2009 r. i będą kontynuowane aż do momentu produkcyjnego uruchomienia usługi w infrastrukturze projektu PLATON. Na obecnym etapie prowadzone są także testy z udziałem przyszłych użytkowników Usługi Powszechnej Archiwizacji w wybranych ośrodkach wchodzących w skład konsorcjum. Więcej informacji o projekcie znajduje się na stronach PCSS: http://www.platon.pionier.net.pl/online/archiwizacja.php oraz http://kmd.pcss.pl.

Przypisy

[1] Wszystkie odesłania do stron internetowych przedstawiają wersję aktualną w dn. 03.09.2010 r.

 Początek stronyUsługa Powszechnej Archiwizacji i jej zastosowanie w bibliotekach naukowych do zabezpieczenia i archiwizacji danych / Maciej Brzeźniak // W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska - Nr 6/2010 (115) sierpień/wrzesień. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2010. - Tryb dostępu: http://www.ebib.info/2010/115/a.php?brzezniak. - Tyt. z pierwszego ekranu. - ISSN 1507-7187