ebib 
Nr 6/2010 (115), Nowy wymiar zabezpieczania zasobów. Artykuł
 poprzedni artykuł następny artykuł   

 


Sławomir Żabicki
Miejska Biblioteka Publiczna w Słupsku

Przechowywanie danych - wyzwanie dla bibliotek cyfrowych




Szacuje się, że rocznie w polskich bibliotekach cyfrowych (BC) wytwarza się 80-100 TB danych[1]. Czy to wiele, by stanowiło istotny problem w zakresie przechowania obiektów cyfrowych? Wszak na rynku dostępne są dyski o pojemności 1 TB i 1,5 TB, a niebawem pojawią się dyski 2 TB i większe. Jeżeli założymy, że biblioteki cyfrowe wytwarzają nawet cztery razy więcej danych, a następnie rozłożymy tę wartość na ponad 50 bibliotek, kalkulacja wykaże, że zakup ośmiu dysków 1-1,5 TB (w cenie ok. 300-400 zł za sztukę) rozwiąże problem. Ale czy na pewno? Aby odpowiedzieć na to pytanie, musimy zastanowić się nad odpowiedzią na podstawowe pytanie, czym jest digitalizacja? Nadawanie postaci cyfrowej materiałom piśmienniczym odbywa się za pomocą skanowania lub fotoreprodukcji. Tak stworzone pliki grafiki rastrowej stanowią podstawę digitalizacji - wzorcową kopię (master copy, mastery). To one, poddane konwersji, uzupełnione o metadane, są archiwizowane na platformach cyfrowych. A same mastery utworzone zgodnie odpowiednimi standardami[2] wraz z metadanymi strukturalnymi stanowią obiekt, które musimy przechowywać wieczyście. Stąd nasze pytanie o to, jak je zarchiwizować bezpiecznie, wieczyście, bezobsługowo i najlepiej jak najtaniej? Specyfiką odróżniającą dane gromadzone przez biblioteki cyfrowe od innych jest:

  • stosunkowo duży rozmiar plików graficznych,
  • konieczność zapewnienia ich niezmienności,
  • wyjątkowo rzadka konieczność sięgania do tych danych,
  • konieczność przechowywania wieczystego.

W perspektywie należy także wziąć pod uwagę, że stale rozwijająca się technologia wymusi migrację danych na nowe nośniki i systemy archiwizacji. Wówczas niezwykle ważnym elementem będzie taka forma przenoszenia zgromadzonych danych, która zapewni ich spójność. Już teraz należy o tym pamiętać i stworzyć taki system, który zabezpieczy zachowanie spójności dokumentu (masterów z metadanymi strukturalnymi i opisowymi), umożliwiający w przyszłości łatwą identyfikację zgromadzonych danych. Zróżnicowane systemy gromadzenia i przechowywania danych charakteryzują się odmiennymi cechami, dlatego wybierając sposób przechowywania naszego zasobu, warto zapoznać się z mocnymi i słabymi stronami tych systemów tak, by dopasować je do specyfiki naszych potrzeb.

Sposoby przechowywania danych

Dyski twarde

Najprostszym wydaje się przedstawiony na początku sposób opierający się na zakupie dysków twardych (HDD) o odpowiedniej pojemności i zainstalowanie ich na komputerze przeznaczonym do gromadzenia oraz archiwizowanych danych lub wykorzystanie dysków zewnętrznych i odkładanie "na półkę" po wykorzystaniu ich przestrzeni dyskowej. Takie rozwiązanie zapewne kusi prostotą, nie wymaga większych inwestycji, zajmuje niewiele przestrzeni, a gdy brakuje miejsca na zgromadzonych dyskach, wystarczy zakupić dodatkowy nośnik. Łatwo policzyć, ile kosztuje przechowywanie 1 TB danych - koszt zakupu dysku, czyli ok. 300-350 zł. Obliczmy, ile będzie nas kosztowało przechowywanie 16 TB danych: 16 x 325 zł to 5200 zł.

Przy tej metodzie warto pamiętać, że dyski psują się, a 1 TB danych, to kilkanaście/kilkadziesiąt dni skanowania. Niekiedy skanowane są wyjątkowo cenne obiekty: cymelia, manuskrypty, starodruki czy inne publikacje, których stan zachowania i wymagania techniczne wymagają niezwykłej troskliwości. Dbając o ich bezpieczeństwo, musimy zdublować zgromadzone dane, co wiąże się z podwojeniem przestrzeni do przechowywania. Inwestujemy w zakup kolejnych dysków twardych lub decydujemy się na archiwizację na innych nośnikach, np. dyskach optycznych: płytach DVD, Blue-ray. Zakup dodatkowych dysków podwaja koszt przechowywania danych. W przypadku tworzenia kopii na płytach koszty i poziom komplikacji wzrastają; 1 TB zajmuje ponad 200 jednowarstwowych płyt DVD. Zarządzanie takim archiwum w dłuższej perspektywie byłoby bardzo niepraktyczne. Bezpieczeństwo przechowywania danych uzależnione jest od trwałości nośników oraz odpowiedniego zarządzania strukturą takiego archiwum. Z czasem coraz więcej zaangażowania wymagać będzie monitorowanie stanu zasobu takiego archiwum, a możliwości automatyzacji tego procesu są znikome. Przy zwiększaniu dodatkowych przestrzeni magazynujących o kolejne TB koszty będą wzrastały nieomal liniowo. Jedynie spadek cen dysków może zmniejszyć koszt przechowywania danych.

Macierze dyskowe - system archiwizacji opierający się na redundantnych (podwojonych w celu uzyskania niezawodności) urządzeniach zawierających zbiory dysków

Zacznijmy od kosztów: zakup macierzy SAS-SATA na 12-48 dysków o pojemności 1 TB to wydatek ok. 30 000-90 000 zł, do tej kwoty należy doliczyć ceny dysków. Macierz FC-SATA na 16 dysków 1 TB to koszt ok. 280 000 zł. Standard Fibre Channel (FC) wymaga sieci SAN - to dodatkowy koszt ok. 100 000 zł[1]. Szacując wydatki związane z archiwizacją, należy uwzględnić koszty zabezpieczenia (UPS) i zużycia energii elektrycznej (macierz, klimatyzacja), serwisowania (10% wartości macierzy w skali roku). Jak widać, inwestycja w macierze z punktu widzenia biblioteki to duży jednorazowy wydatek. Jednak inwestując w macierz, otrzymujemy w miarę bezpieczny system przechowywania danych, gdyż dyski w macierzy współpracują w grupie RAID (Redundant Array of Independent Disks). Zapewnia to bezpieczeństwo przechowywanych plików w wypadku uszkodzenia jednego lub nawet dwóch dysków jednocześnie. Grupy RAID charakteryzują się rożnymi możliwościami, z punktu widzenia BC priorytetowe jest wygospodarowanie maksymalnej przestrzeni na bezpieczne archiwizowanie masterów. Dzięki wykorzystaniu kontroli parzystości zabezpieczenie archiwizowanych masterów w RAID nie wymaga podwojenia przestrzeni dyskowej. Jednostkowy koszt przechowywania 1 TB danych maleje wraz ze skalą systemu. Do zalet macierzy należy zaliczyć:

  • możliwość automatyzacji procesu archiwizacji,
  • bezpieczeństwo przechowywanych danych (ograniczone do bezpieczeństwa samego urządzenia),
  • redundancję kluczowych systemów macierzy,
  • błyskawiczny dostęp do zgromadzonych nań informacji, choć w przypadku archiwizacji wieczystej to ostatnie nie jest szczególnie istotne.

Utrata przechowywanych danych może nastąpić zarówno z powodu błędów systemu operacyjnego, działalności wirusów komputerowych lub innego szkodliwego oprogramowania, jak i na skutek umyślnej lub nieumyślnej działalności użytkowników danego systemu.

Nośniki taśmowe

Magnetyczny zapis danych na taśmie był jednym z pierwszych sposobów przechowywania informacji. W historii technologii taśmowych powstało kilka standardów: DAT, SLR, DTL, Super DTL, Ultrium LTO. Wiele z nich się zdezaktualizowało. Z perspektywy biblioteki cyfrowej najodpowiedniejszą technologią taśmową jest standard LTO (Linear Tape Open), oznaczający otwarty zapis liniowy i niekompatybilny z poprzednikami. Najważniejsze cechy LTO:

  • wielokanałowy zapis liniowy,
  • magnetorezystywne głowice odczytujące,
  • cienkowarstwowe, indukcyjne głowice zapisujące,
  • detekcja i korekcja błędów,
  • kompresja danych,
  • nośniki danych MP (metal particle),
  • kaseta z półcalową taśmą magnetyczną o jednej szpuli.

Obecnie na rynku zagościła już piąta generacja tego standardu LTO-5, charakteryzująca się największą pojemnością. Specyfika zapisu danych na taśmach uniemożliwia błyskawiczne dotarcie do zgromadzonych nań danych, szczególnie tych zapisanych na końcu nośnika (długość nośnika LTO-5 to 846 m), co nie przeszkadza w wieczystej archiwizacji. Nośniki LTO-5 oferują 1,5 TB natywnej pojemności (naturalnej) - przy użyciu kompresorów, w zależności od gromadzonych danych, wielkość przechowywanych danych na nośniku może być podwojona. Rynek oferuje wiele urządzeń do odczytu i zapisu nośników taśmowych. Od stosunkowo prostych streamerów (napędy taśmowe) instalowanych na komputerach przez autoloadery - (zmieniacze taśmowe) odróżnia je posiadanie wielu miejsc (tzw. slotów) na kasety, co zwiększa pojemność urządzenia i umożliwia częściowe lub całkowite zautomatyzowanie procesu zapisu (współpracują z serwerami), aż po biblioteki taśmowe i wielorobotowe silosy taśmowe. Najtańsze napędy taśmowe, to wydatek ponad 3000 euro.

W zależności od możliwości finansowych instytucji, można poszukać rozwiązań dostosowanych do potrzeb konkretnej biblioteki. Cena nośnika LTO-5 to ok. 800 zł, co dwukrotnie przekracza cenę za popularny HDD o tej pojemności, ale stanowi jedynie ok. 2/3 wartości dysku serwerowego (trwalszego) o pojemności 1 TB. Informacje o czasie bezpiecznego przechowywania danych na nośnikach taśmowych, z jakimi się spotkałem, dotychczas są bardzo zróżnicowane, od trzech do trzydziestu lat. Być może tak wielka rozbieżność wynika z wrażliwości taśm na temperaturę, wilgotność, pole magnetyczne. Jeżeli chodzi o rozciągliwość, to najnowsze nośniki według producentów mają zapewnić funkcjonowanie po 5000 ładowań. Twórcy formatu LTO pracują nad kolejnymi generacjami, które mają się charakteryzować większą szybkością odczytu danych oraz zwiększonymi w postępie geometrycznym pojemnościami. Powinno to zapewnić w najbliższych latach ciągłość rozwoju technologii taśmowych. Niestety, nie oznacza to jednak kompatybilności generacji. Obecnie praktykowana jest możliwość odczytu danych do drugiej generacji wstecz. W przypadku danych, które powinny być składowane przez długi okres, nośniki taśmowe wydają się lepszym rozwiązaniem niż przestrzeń dyskowa.

Dane z taśmy "schodzą" stopniowo, nośniki te mają najlepiej rozbudowane systemy detekcji i korekcji błędów. Nie muszą być załadowane w urządzenie stale pracujące (pod napięciem). Istnieje możliwość zakupu urządzeń z redundantnym wyposażeniem oraz zrobotyzowanych, umożliwiających zaawansowaną automatyzację procesu archiwizacji oraz wielką skalowalność systemu. Na koszt prostego systemu archiwizacji opartego na nośnikach taśmowych wielkości 24 TB (bez redundancji) składałoby się:

  • 16 taśm LTO-5 - 12 800 zł,
  • autoloader - ok. 22 000 zł,
  • oprogramowanie - ok. 4000 zł,
  • serwer - ok. 3000-4000 zł[1].

System archiwizacji oparty na dyskach optycznych BD

Archiwizacja oparta na nośnikach optycznych wydaje się ryzykownym przedsięwzięciem. Wielkość wytworzonych przez biblioteki cyfrowe danych praktycznie wyklucza użycie nośników o relatywnie niewielkich pojemnościach. Z pewnością nieefektywne byłoby archiwizowanie terabajtów masterów na płytach DVD. Dopiero dyski Blue-ray (BD), szczególnie dwuwarstwowe o pojemności 50 GB, mogą być rozpatrywane jako akceptowalny nośnik do archiwizacji danych. Na rynku pojawiły się systemy archiwizacji oparte na nośnikach BD. Bałtycka Biblioteka Cyfrowa do archiwizacji masterów wykorzystuje system oparty o urządzenie Disc 1000 i serwer z oprogramowaniem zarządzającym QStar. Disc 1000 wyposażony jest w dwa napędy BD oraz 105 gniazd. Dedykowane nośniki o pojemności 50 GB i przedłużonej trwałości ładowane są po 15 do SmartPack (zasobników). Proces ładowania SmartPacków jest jedyną czynnością, w czasie której pracownik ma bezpośredni kontakt z dyskiem optycznym. Wewnątrz urządzenia zarządzanie nośnikami odbywa się automatycznie, a konstrukcja Disc 1000 zapobiega przedostawaniu się kurzu, który mógłby zakłócić proces zapisu czy odczytu danych. Zaletami systemu są:

  • automatyzacja archiwizacji,
  • wysoki poziom bezpieczeństwa danych zapisanych na dyskach optycznych, połączony z niewielkimi wymaganiami związanymi z przechowywaniem zapisanych nośników,
  • możliwość utrzymywania kopii zapasowych (w SmartPackach), w dowolnej, oddalonej przestrzeni niezagrożonej zdarzeniami losowymi, mającymi wpływ na serwerownię,
  • zminimalizowane zużycie energii elektrycznej, co w perspektywie wieloletniej wieczystej archiwizacji obniża koszty przechowywania,
  • skalowalność systemu,
  • niezmienność zapisanych danych.

System ten umożliwia również dostęp do danych z niewielkim opóźnieniem (40 sekund). Koszt systemu (Disc 1000, oprogramowanie, SmartPacki i nośniki o przedłużonej trwałości o pojemności 5250 TB, wraz z supportem) nie przekroczył 100 000 zł.

Podsumowanie

Rozwiązanie problemu bezpiecznej archiwizacji jest praktycznie niemożliwe bez ogólnokrajowego systemu powszechnej archiwizacji, który zapewniłby: bezpieczne, wieczyste, geograficznie rozproszone, nadmiarowe, skalowalne przechowywanie danych. Rozwiązanie takie dla potrzeb środowiska akademickiego jest obecnie wdrażane, jako "Usługa powszechnej archiwizacji" w ramach projektu Platforma Obsługi Nauki PLATON. Niestety, z uczestnictwa w tym projekcie wykluczone zostały pozaakademickie biblioteki cyfrowe. Innym ogólnokrajowym systemem, tym razem skierowanym wyłącznie na archiwalia wchodzące w skład państwowego zasobu archiwalnego, jest Narodowe Archiwum Cyfrowe. Tylko projekty ogólnokrajowe mogą znacząco obniżyć koszty archiwizacji wieczystej, zapewniając jednocześnie poziom bezpieczeństwa niedostępny dla najlepszych nawet systemów archiwizacji w bibliotekach cyfrowych.

Literatura

[1] Krajowa Platforma Obsługi Nauki PLATON przedstawiających usługę Krajowego Magazynu Danych KMD [on-line]. [Dostęp 25.06.2010]. Dostępny w World Wide Web: http://www.platon.pionier.net.pl.

[2] PŁOSZAJSKI, G. (red.). Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego. W: Biblioteka Cyfrowa Politechniki Gdańskiej [on-line]. [Dostęp 14.07.2010]. Dostępny w World Wide Web: http://bcpw.bg.pw.edu.pl/Content/1262/BG_Stand_w_proc_digit.pdf.

 Początek strony



Przechowywanie danych - wyzwanie dla bibliotek cyfrowych / Sławomir Żabicki// W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska - Nr 6/2010 (115) sierpień/wrzesień. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2010. - Tryb dostępu: http://www.ebib.info/2010/115/a.php?zabicki. - Tyt. z pierwszego ekranu. - ISSN 1507-7187