ebib 
Nr 6/2010 (115), Nowy wymiar zabezpieczania zasobów. Artykuł
 poprzedni artykuł następny artykuł   

 


Włodzimierz Daszewski
Instytut Informacji Naukowej i Studiów Bibliologicznych UW

Cyfrowe zabezpieczenie zbiorów i informacji


Wprowadzenie

Współczesne biblioteki, obok tradycyjnych rodzajów zbiorów, gromadzą coraz więcej obiektów cyfrowych. Większość z nich to kopie cyfrowe realnych obiektów przechowywanych w danej bibliotece. Dobrze wykonane kopie cyfrowe obiektów zabytkowych (o odpowiedniej głębi cyfrowego opisu obiektu analogowego) stały się znakomitym medium ochrony oryginałów i środkiem udostępniania ich większemu kręgowi odbiorców. Rośnie także liczba obiektów wprowadzanych do zbiorów wytworzonych i istniejących tylko w formie cyfrowej. Biblioteki, które chcą przetrwać w zmieniającej się rzeczywistości, będą ewoluować i w końcu staną się centrami obrotu informacją, węzłami koordynującymi, ośrodkami doradztwa potrafiącymi naprowadzać odbiorców na informacje poszukiwane w wirtualnym świecie.

Kody cyfrowe

Informacja cyfrowa jest zapisywana w kodzie binarnym, zerojedynkowym. Kody cyfrowe opisują w sposób uproszczony i utrwalają fragmenty realnej i wirtualnej rzeczywistości odczytywalnej przez człowieka zmysłami. Pozwalają modyfikować się, przekształcać za pomocą programów komputerowych oraz wywoływać i materializować z użyciem urządzeń technicznych i z wykorzystaniem energii elektrycznej. Umożliwiają przenoszenie danych, informacji i wiedzy aktywnie – w przestrzeni za pomocą głównie fal elektromagnetycznych, a także biernie – w czasie i przestrzeni za pomocą trwałych, materialnych nośników pamięci. Każdy obiekt cyfrowy posiada swoją wielkość cyfrową. Cyfrowy opis to integralny zbiór danych. Uporządkowany zbiór zer i jedynek zajmuje konkretną przestrzeń fizyczną, która nie jest wielka i zależy od rodzaju nośnika pamięci. Kod cyfrowy – używany na bieżąco czy też przechowywany przez dłuższy czas w bezruchu – potrzebuje tej przestrzeni do swojego przetrwania.

Biblioteki cyfrowe a nośniki przechowujące dane

Biblioteka cyfrowa zajmuje o kilka rzędów wielkości mniej miejsca niż biblioteka tradycyjna, ale nie jest to przestrzeń zerowa. Kiedy spełni się sen o pamięci holograficznej, z wbudowanymi mechanizmami rearchiwizacyjnymi, w której w kostce kryształu o wielkości centymetra sześciennego zapiszemy połowę informacji przechowywanej w Bibliotece Narodowej, wtedy problemy fizycznej przestrzeni potrzebnej do przechowywania zgromadzonej informacji cyfrowej staną się mniejsze. Dziś względna i trudna do jednoznacznego rozpoznania trwałość nośników informacji zmusza nas do niezwykłej czujności w tym zakresie, by zgromadzona wielkimi kosztami informacja cyfrowa nie rozpłynęła się w nicość. Jak trudny jest to problem, wyjaśniam poniżej.

Sprzedawane detalicznie płyty CD wykonywane były w czterech technologiach, z których na rynku pozostały w zasadzie dwie. W płytach zapisywanych jednorazowo (R) wykorzystuje się technikę wypalenia laserem pitów w warstwie barwnika, w płytach RW stosuje się zaś technikę wygrzewania i zmiany fazy z amorficznej do krystalicznej i odwrotnie konglomeratu, w skład którego wchodzą metale. Trwałość płyty zależy od wielu czynników, ale w płytach typu R w dużej mierze zależy od trwałości barwnika i jakości wypalenia w procesie zapisu danych za pomocą nagrywarek (doboru temperatury punktowej lasera). Jako podstawowych barwników w płytach CD i DVD stosuje się barwniki cyjaninowe (kilka odmian: cyjanina, ftalocyjanina, azocyjanina – znakomite syntetyczne barwniki, wynalazek początku XX w.), które w cienkich warstwach na płytach okazały się bardzo wrażliwe na wiele czynników destrukcyjnych, w tym na światło rozproszone. Badania trwałości płyt z okresu końca lat 90. XX w. pokazały, że najtrwalszy zapis osiągało się na płytach RW wypalonych jednorazowo, w których stosowany jest trwalszy rodzaj warstwy zapisu.

Na początku XXI w. firmy produkujące płyty, po wykonaniu badań, zaczęły wprowadzać odpowiednie domieszki stabilizujące barwnik na dłuższy czas. Jakość barwników wówczas wzrosła. Próby wprowadzenia na rynek trwałych, archiwalnych płyt optycznych (m.in. Kodak, Verbatim, Sony) ponosiły porażkę ze względu na cenę, bo nawet różnica kilku złotych w cenie jednej płyty była nie do przyjęcia dla rynku. Czasami niszowo pokazują się płyty o prawdopodobnie większej trwałości archiwalnej (np. Memorex Pro Gold Archival CD i DVD). Szeroko zakrojone badania w latach 2003–2005 prowadziła firma Verbatim, czego wynikiem było podniesienie przeciętnej trwałości popularnych płyt tej firmy (dobrano odpowiedni skład stabilizatorów do barwnika azocyjaninowego).

Płyty DVD są zbudowane odrobinę inaczej, a podstawową różnicą jest to, że najwrażliwsza na zniszczenie warstwa, na której dokonujemy zapisu danych, jest umieszczona między dwoma krążkami poliwęglanu. Mechanicznie takie płyty są odporniejsze, za to często upadek takiej płyty z wysokości pionowo na podłoże powoduje jej rozwarstwienie. Na płycie DVD mieści się więcej danych, dlatego utrata płyty wiąże się z utratą większej ilości informacji. Sposób wypalania w niektórych typach płyt DVD (markowych firm) został rozwiązany za pomocą zakodowanych na płytach informacjach o barwniku i strategii wypalania dostępnych dla dobrych nagrywarek DVD, które są ustawiane automatycznie podczas procesu wypalania.

Domową metodą sprawdzania jakości wypalania płyt jest detekcja częstotliwości występowania błędów (C1/2 dla CD i P1/2 dla DVD), którą można wykonać za pomocą programu KProbe dla napędów Lite-On, PlexTools dla napędów Plextor czy Nero CD/DVD Speed (lista napędów badanych http://www.cdspeed2000.com/[1]). Przeprowadza się kilkadziesiąt testów i uśrednia wyniki, traktując jako przybliżone, ale dające obraz jakości płyty. Dla dobrych CD liczba błędów C1 na sekundę nie powinna być wyższa niż 50; błędów C2 nie powinno być w ogóle. Dla dobrych krążków DVD liczba błędów P1 nie powinna przekroczyć 50, a pojawianie się błędów typu PO pozwala mieć pewność utraty części danych z płyty w dosyć krótkim okresie. Innym parametrem sprawdzanym domowym sposobem jest badanie rozsynchronizowania sygnału zwane Jitter, pozwalające sprawdzić dokładność wypalenia pitów i landów na płycie. Pomiar tego parametru umożliwia Nero CD-DVD Speed, niestety, mało napędów potrafi ten parametr raportować. Im większy Jitter (w nanosekundach, max. dopuszczalny 35), tym gorzej dla nas. Do tego należy wspomnieć, że fabrycznie powinno badać się jeszcze około 100 innych parametrów płyty (m.in. asymetrie płyt, zniekształcenia kątowe, reflektancję, asymetrię położenia ścieżki prowadzącej itd.).

W zarządzaniu biblioteką cyfrową, w planowaniu kosztów eksploatacji, oprócz sporych kosztów pozyskania cyfrowych obiektów (kosztowna sprzętowo i pracochłonnościowo digitalizacja czy zakup obiektów wytworzonych cyfrowo, wraz z opłatami praw autorskich) powinniśmy uwzględnić duże koszty nośników informacji, ich dosyć szybką zużywalność i rosnące koszty energii potrzebnej do utrzymania zbioru cyfrowego. Szacuje się, że ok. 2030 r., w krajach rozwiniętych, 30–40% energii elektrycznej będzie zużywane na utrzymanie serwerów przechowujących informacje.

Warunki przetrwania i ewolucji informacji cyfrowej

Informacja cyfrowa jest doskonałym środkiem do zabezpieczania informacji analogowej i uniezależnienia jej od nośnika materialnego, a przez swoją bezstratną podzielność daje szansę na minimalizowanie strat w ponadczasowych wartościach kultury. Sama informacja cyfrowa jest bardziej predestynowana do ciągłego obrotu niż przechowywania, dlatego obawy o jej trwałość mogą zniknąć tylko wtedy, kiedy będziemy przestrzegać żelaznych zasad umożliwiających bezpieczne jej trwanie. Gdy już uzyskamy zadowalający efekt w postaci kopii cyfrowej, powinniśmy zapewnić jej długowieczność. Cyfrowy obiekt zajmuje bardzo małą przestrzeń fizyczną nośnika, przez co nawet drobna rysa może zdecydować o utracie części opisu cyfrowego. Oprócz zadbania o jak najtrwalszy nośnik materialny, jeśli chcemy względnie uniezależnić kod cyfrowy od materii nośnika, powinniśmy zadbać o spełnienie poniższych warunków:

Pierwszym głównym warunkiem jest powielenie danego obiektu cyfrowego w co najmniej jednej kopii. Im więcej kopii, tym szansa na przetrwanie jakiegokolwiek kataklizmu przez jedną z nich jest większa.

Drugim podstawowym warunkiem przetrwania obiektu cyfrowego jest rozproszenie w przestrzeni tych samych obiektów cyfrowych. Cóż z tego, że dany obiekt powieliliśmy i zapisaliśmy na jednym dysku? Jeśli cały dysk ulegnie zniszczeniu, to stracimy wszystko. Cóż z tego, że zrobiliśmy kopię, zapisaliśmy na pendrivie i schowaliśmy do szuflady biurka, na którym stoi komputer? Jeśli nasz pokój dotknie pożar, stracimy wszystkie dane. Przy cennych kopiach cyfrowych powinniśmy zastanowić się nad kopiami bezpieczeństwa rozmieszczonymi nie tylko na serwerze macierzystym, lecz także na serwerze zewnętrznym, nośnikach poza komputerem przechowywanych w innym miejscu budynku, nawet czasami w komercyjnych przechowalniach danych. Idealnych rozwiązań typu nośniki o wieczystej trwałości przechowywane w podziemnych schronach czy kopia cyfrowa Biblioteki Narodowej umieszczona na satelicie lub zaszyfrowana kopia zbioru cyfrowego skompresowanego fraktalnie[2], uniewidoczniona i umieszczona w sposób rozproszony i atraktorowy[3] na serwerach konkurencyjnego państwa, omawiał nie będę.

Trzeci warunek to rearchiwizacja kopii konkretnych kodów cyfrowych i przepisywanie ich na nowy nośnik materialny w połowie przewidywanego czasu jego trwałości. Warunek kosztowny, ale niezbędny w celu zapewnienia bezpieczeństwa naszych zbiorów cyfrowych. Zasygnalizowana wyżej pamięć holograficzna będzie posiadać automatyczną procedurę rearchiwizacji z korekcją błędów.

Do powyższych warunków należy dodać zbiór dodatkowych rzeczy wpływających na całość spraw z tym związanych:

  • standaryzacja formatów kodów dyskretnych,
  • posiadanie kopii pierwotnej, wyjściowej, do której możemy powrócić,
  • posiadanie programów pozwalających na odczyt formatów porzuconych, starych,
  • możliwość bezstratnej translacji formatów starych na nowe,
  • tworzenie programów zdolnych obsługiwać wszystkie formaty używane i wszystkie historyczne,
  • tworzenie programów umożliwiających emulowanie najstarszych programów lub sprzętu pozwalającego na działanie najstarszych wersji oprogramowania.

Cyfrowa ochrona zbiorów

Zasoby biblioteczne mają różną wartość. Zbiór może mieć wartość historyczną, informacyjną lub artystyczną. Materia, na której zapisaliśmy nasze dziedzictwo, podlega działaniu czasu, czynników fizycznych, chemicznych, biologicznych. Procesy destrukcji trwają cały czas. Wraz z utratą materii nośnika tracimy zapisane informacje. Za pomocą procesów digitalizacyjnych możemy skopiować informacje zgromadzone w naszych bibliotekach na tradycyjnych nośnikach, głównie na papierze i pergaminie. Kopiowanie cyfrowe jest procesem długotrwałym i kosztownym, dlatego konieczne jest ustalenie kolejności i wybór obiektów do digitalizacji w oparciu o ich wartość, od największej do najmniejszej.

Digitalizacja jest to rejestracja charakterystycznych cech materialnych obiektu poddanego cyfrowemu kopiowaniu za pomocą urządzeń technicznych z wykorzystaniem odpowiednio dokładnych technik próbkowania. Każdy obiekt analogowy jest ciągły w tym sensie, że jego rozdzielczość jest na danym poziomie wystarczająca do stworzenia ciągłego obrazu w zmysłach odbiorców. Najmniejsza odległość mająca sens fizyczny to długość Plancka wynosząca 10 do minus 35 potęgi metra. Gdybyśmy chcieli opisać obiekt fizyczny na tym poziomie, to objętość tego cyfrowego obiektu byłaby kosmiczna. Dobór głębi cyfrowej w opisie cyfrowym obiektu powinniśmy wyważyć w oparciu o jego wartość, możliwości techniczne urządzenia i możliwości późniejszego operowania plikiem (przetwarzania, przechowywania, udostępniania) i o to, co chcemy przenieść do opisu cyfrowego i zachować z jego cech fizycznych. Im obiekt cenniejszy, tym głębia opisu cyfrowego powinna być większa, ale nie przekraczająca znacznie zdolności odbioru zmysłowego najzdolniejszego człowieka. Niektóre morskie krewetki mają zdolność widzenia hiperspektralnego, widzą od ultrafioletu do podczerwieni, 4 liniowe kierunki polaryzacji jednocześnie, polaryzację kołową, mają 12 rodzajów czopków (człowiek 3) i widzą 78 barw pochodnych (człowiek 6: czerwoną, pomarańczową, żółtą, zieloną, niebieską, fioletową). Nie jesteśmy w stanie nie tylko sobie wyobrazić, jakie malarstwo wytwarzałyby te krewetki (pod warunkiem, że używałyby farb do malowania pod wodą), ale nawet jak naprawdę odbierają świat widzialny.

Dla naszych obiektów zabytkowych przechowywanych w bibliotekach, w cyfrowym pliku wynikowym, maksymalnie wystarczy model barw CIE Lab (Commission Internationale de L’Eclairage, L – luminacja, a – barwa od zielonej do magenty, b – barwa od niebieskiej do żółtej), głębia bitowa kolorów – 16 bitów na kanał, rozdzielczość 1200 SPI (Samples Per Inch), rejestracja w dodatkowych, węższych zakresach światła widzialnego, rozszerzenie o podczerwień, ultrafiolet, ewentualnie światło spolaryzowane, podświetlenie obiektu światłem zwykłym czy prześwietlenie promieniowaniem rentgenowskim. Do prezentacji popularnej wystarczy o wiele mniej informacji i na przykład znakomity do cyfrowych publikacji format DjVu.

Cyfrowa konserwacja

Kopia cyfrowa obiektu zabytkowego może nam posłużyć do cyfrowej renowacji oryginału. Możemy pokusić się o przywołanie do cyfrowego życia pierwotnego wyglądu obiektu. Oryginał zachowamy w stanie niezmienionym. Możemy poddać go klasycznej renowacji i konserwacji, by zatrzymać procesy rozpadu, a potem schować w pomieszczeniu z kontrolowaną, czystą atmosferą, z warunkami korzystnymi i stabilnymi dla zabytku. W wirtualnej przestrzeni, używając pracochłonnych i wyrafinowanych technik cyfrowych, korzystając ze studiów historycznych i programów komputerowych, możemy pokusić się o odtworzenie dzieła pierwotnego, uzupełnić ubytki i z dosyć dużym prawdopodobieństwem zbliżyć się do oryginału z dnia jego powstania. Najbardziej pracochłonne jest ręczne odtwarzanie ubytków we wskanowanym obrazie z wykorzystaniem komputera, programu graficznego i ewentualnie tabletu. Robi się to podobnie jak klasyczny retusz konserwatorski. Jeśli ubytki dotknęły tła i prostych obiektów, to za pomocą narzędzi do klonowania możemy szybko zapełnić ubytki. Jeśli fragment dotyczy indywidualnych cech, na przykład twarzy konkretnego człowieka, to wymagany jest wysoki kunszt artystyczny i duże wyczucie plastyczne, a i tak nie zawsze da się poprawnie odtworzyć duży ubytek. Im mniej mamy informacji o odtwarzanym obiekcie, tym sprawa jest trudniejsza. Jeśli w zbiorze fotografii będą inne zdjęcia tej samej osoby, najlepiej z tego samego okresu, to łatwiej będzie można odtworzyć brakujące cechy indywidualne w portrecie. Prostszą sprawą jest skopiowanie podobnego obiektu z innego ujęcia i przekształcenie go za pomocą narzędzi do perspektywizowania, wypaczania, zniekształcania czy trójwymiarowania w celu dopasowania i wklejenie warstwy po wyrównaniu stopnia naświetlenia, balansu bieli, gamy barw. W przypadku prac zachowanych względnie dobrze, a tylko nadszarpniętych zębem czasu, wypłowiałych, zmienionych kolorystycznie, możemy wykorzystać specjalistyczne oprogramowanie, które odwraca procesy zmian w obrazie według dobranych do danego procesu algorytmów. Potem możemy taki obraz ponownie wywołać techniką fotograficzną na archiwalnym papierze i przechowywać przez wiele lat. Najtrudniejsze do realizacji są wirtualne inscenizacje zabytków i przestrzeni zabytkowych dla danego momentu historycznego. Takie obiekty mogą tworzyć ludzie o zdolnościach podobnych do zdolności Tomasza Bagińskiego, pracując przy tym w zespołach zdolnych do synergicznej, trudnej i żmudnej pracy. Odtwarzanie takiej sceny muszą poprzedzić wielomiesięczne studia nad historią przestrzeni architektonicznej, geologicznej, geofizycznej. W bibliotece cyfrowej możemy prezentować rzeczy w różnych wersjach, przechowując obiekty, które pozostaną w swej informacyjnej niezmienności na wiele lat.

Podsumowanie

XXI w. to wiek cyfrowej rewolucji. Kody cyfrowe są infomemami[4], z wykorzystaniem których w komputerowych sieciach neuronowych będą dokonywane procesy podobne do procesów zachodzących w mózgu pojedynczego człowieka. Automatyczne systemy analizy i wnioskowania, dowodzenia twierdzeń czy wyciągania zbiorów z możliwymi do wykorzystania strukturami informacyjnymi stają się powoli rzeczywistością. Ludzie w tym środowisku będą się także doskonalić i podobnie jak wzrost średniej inteligencji w XX w., wywołany wieloma zjawiskami opartymi o rozwój nauki, tak rozwój inteligentnych, a następnie myślących sieci będzie katalizatorem zwiększającym szybkość tego procesu. Współczesne biblioteki włączają się w ten proces i będą zarządzać informacją cyfrową. Jakość ich pracy warunkować będzie utrzymanie się ich na rynku kultury i pozostanie w nurcie teraźniejszości zamiast odpoczynku na łamach historii dziejów człowieka.

Przypisy

[1] Wszystkie odesłania do stron internetowych przedstawiają wersję aktualną w dn. 26.07.2010 r.

[2] Kompresja fraktalna, to rodzaj kompresji stratnej wykorzystującej fraktale do reprezentacji danych. Stosowana jest obecnie głównie do grafiki. Ze względu na dobre efekty, jakie daje metoda falkowa, nie jest ona szerzej stosowana i rozwijana. Fraktal to zbiór obiektów samopodobnych w sensie stochastycznym (procesy stochastyczne zachodzą losowo w przestrzeni probabilistycznej) na kilku poziomach szczegółowości. Falki to grupy funkcji w zbiorze liczb rzeczywistych odzwierciedlone przez wyprowadzenie każdego elementu z funkcji matki przez przesunięcie i skalowanie.

[3] Atraktor to zbiór w przestrzeni fazowej, do którego z czasem zmierzają trajektorie startujące w różnych miejscach przestrzeni fazowej. Atraktory można budować w oparciu o duże, nieznane i rozproszone środowisko i dokonywać analiz.

[4] Infomem [w odróżnieniu od memu, który jest jednostką ewolucji kulturowej] to jednostka celowo sformułowanej informacji. W przeciwieństwie do informacji genetycznej infomem ma charakter intencjonalny i semantyczny. Por. GAŁCZYŃSKI, J. Holistyczne ujęcie informacji. Cz. 1. Praktyka i Teoria Informacji Naukowej i Technicznej 2006, T. XIV, nr 4, s. 5.

 Początek strony



Cyfrowe zabezpieczenie zbiorów i informacji / Włodzimierz Daszewski// W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska - Nr 6/2010 (115) sierpień/wrzesień. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2010. - Tryb dostępu: http://www.ebib.info/2010/115/a.php?daszewski. - Tyt. z pierwszego ekranu. - ISSN 1507-7187