| |
|
|
Rafał T. Prinke
Biblioteka Kórnicka PAN
Standardy danych w bibliotekach cyfrowych
(na podstawie prezentacji opracował EBIB)
|
Standardy
wymiana informacji
- synchroniczna (czytelność)
- diachroniczna (długowieczność)
- ukierunkowana (grupy odbiorców)
- niezależna (programy, prezentacja)
Standardy: ISO, ANSI, W3C, PN
Anty-standardy: Microsoft, IBM, Apple
Kryteria i preferencje

Obraz tekstu i tekst

Formaty plików graficznych
- TIFF bez kompresji
- TIFF z kompresją LZW - obrazy kolorowe i w szarociach
- TIFF z kompresją G4 - obrazy czarno-białe
- GIF - 256 kolorów
- JPEG - stratny
- DjVu - b. małe pliki
Obraz kolorowy
|
|
Obraz w odcieniach szarości
|
|
Obraz czarno-biały (bitonal)
|
|
Manipulacja kolorem tła
|
Wielkość obrazu strony 15x22 cm
Kodowanie znaków tekstu
- 1874 - Jean Baudot (1845-1903)
- 1963 - ANSCII
- 1964 - EBCDIC (IBM)
- 1968 - ASCII
- 1972 - ISO 646 (180 wersji narodowych)
IBM/MS-DOS code pages (cp437, cp852)
MS-Windows code pages (cp1252, cp1250)
polskie "standardy" (Mazovia, DHN)
- 1987 - ISO 8859-x (15 wersji regionalnych)
- 1991 - US-ASCII = ISO 8859-1
- 1993 - Unicode 1 = ISO 10646-1
- 2001 - Unicode 3.2 = ISO 10646-2
Unicode
8 bitów = 256 znaków (-32)
16 bitów = 65 536 znaków (-32)
21 bitów = 870 000+ dodatkowych
1993
Unicode 1 = ISO 10646-1
2001
Unicode 3.2 = ISO 10646-2
2002
Katalog ok. 100 000 znaków
- Abstrakcyjny znak
- Punkt kodowy
- Cechy znaków: alfabet, kierunek, składniki, zgodność
- Sposób kodowania: UTF-8, UTF-16, UTF-32
- Płaszczyzny: 0 (BMP) - 16
Wygląd tekstu
Tekst "czysty"
|
|
Tekst "adnotowany"
|
Markup
Adnotowanie tekstu:
- prezentacyjne (preskryptywne)
- semantyczne (deskryptywne)
Metajęzyki adnotowania tekstu
- 1967 - William Tunnicliffe
- 1969 - GML - Goldfarb, Mosher, Lorie
- 1983 - SGML
- 1990 - HTML - Tim Berners-Lee, WWW
<font color="red">Bakon</font>
- 1998 - XML
<nazwisko poprawnie="Bacon">Bakon</nazwisko>
Struktura tekstu
Dokument XML
|
|
Prezentacja
dokument XML + arkusz XSL ? HTML, PDF, TeX, RTF
|
Tekst elektroniczny = XML
- Otwarty standard
- Niezależny od producentów oprogramowania
- Przyjęty przez wielkie firmy (IBM, Microsoft, Sun)
- Przeznaczony dla sieci WWW (stron internetowych)
- Czytelny dla człowieka w postaci źródłowej
- Prosty w zastosowaniu
- Dostępny dla niespecjalistów
- Umożliwia definiowanie języków specjalistycznych
Języki zdefiniowane w XML
| DocBook | - Computer Documentation |
| MathML | - Matematical Markup Language |
| CML | - Chemical Markup Language |
| BSML | - Bioinformatic Sequence Markup Language |
| BIOML | - BIOpolymer Markup Language |
| AML | - Astronomical Markup Language |
| ThML | - Theological Markup Language |
| GedML | - Genealogical Data in XML |
| VHG | - Virtual Hyperglossary |
| OMF | - Weather Observation Markup Format |
Przykłady projektów
- Text Encoding Initiative
- TEI Consortium
- Project Gutenberg
- Oxford Text Archive
- Early English Books Online
- EEBO Text Creation Partnership
- JSTOR
- Gallica
Formaty archwizacji plików graficznych
- Tylko tekst, wyraźny druk
- TIFF G4 300 dpi
- Tekst+rysunki, szczegóły, drobny lub niewyraźny druk
- TIFF G4 400-600 dpi
- Tekst+ilustracje, ikonografia, bez koloru
- TIFF 8bit LZW 200-300 dpi lub JPEG 95+ 300 dpi
- Cymelia, druki wielokolorowe, rękopisy iluminowane
- TIFF 24bit LZW 200-300 dpi lub JPEG 95+ 300 dpi
- Surogaty cyfrowe
- TIFF 24bit bez kompresji 600 dpi
Formaty archwizacji plików tekstowych
- Czysty tekst
- Unicode UTF-8
- Tekst adnotowany
- XML/TEI
- Tekst specjalistyczny
- XML/języki specjalne
| |