Internet w bibliotekach II - łączność, współpraca, digitalizacja, Wrocław, 23-26 września 2003 roku


- Spis treści - Poprzedni - Następny

   
 

Rafał T. Prinke

Biblioteka Kórnicka PAN

Standardy danych w bibliotekach cyfrowych

(na podstawie prezentacji opracował EBIB)

Standardy

wymiana informacji

 • synchroniczna (czytelność)
 • diachroniczna (długowieczność)
 • ukierunkowana (grupy odbiorców)
 • niezależna (programy, prezentacja)

Standardy: ISO, ANSI, W3C, PN Anty-standardy: Microsoft, IBM, Apple

Kryteria i preferencje

Obraz tekstu i tekst

Formaty plików graficznych

 • TIFF bez kompresji
 • TIFF z kompresją LZW - obrazy kolorowe i w szaroœciach
 • TIFF z kompresją G4 - obrazy czarno-białe
 • GIF - 256 kolorów
 • JPEG - stratny
 • DjVu - b. małe pliki
Obraz kolorowy

           Obraz w odcieniach szarości

           Obraz czarno-biały (bitonal)

           Manipulacja kolorem tła

Wielkość obrazu strony 15x22 cm

          

Kodowanie znaków tekstu

 • 1874 - Jean Baudot (1845-1903)
 • 1963 - ANSCII
 • 1964 - EBCDIC (IBM)
 • 1968 - ASCII
 • 1972 - ISO 646 (180 wersji narodowych)
  IBM/MS-DOS code pages (cp437, cp852)
  MS-Windows code pages (cp1252, cp1250)
  polskie "standardy" (Mazovia, DHN)
 • 1987 - ISO 8859-x (15 wersji regionalnych)
 • 1991 - US-ASCII = ISO 8859-1
 • 1993 - Unicode 1 = ISO 10646-1
 • 2001 - Unicode 3.2 = ISO 10646-2

Unicode

8 bitów = 256 znaków (-32)
16 bitów = 65 536 znaków (-32)
21 bitów = 870 000+ dodatkowych

1993
Unicode 1 = ISO 10646-1
2001
Unicode 3.2 = ISO 10646-2
2002
Katalog ok. 100 000 znaków


 • Abstrakcyjny znak
 • Punkt kodowy
 • Cechy znaków: alfabet, kierunek, składniki, zgodność
 • Sposób kodowania: UTF-8, UTF-16, UTF-32
 • Płaszczyzny: 0 (BMP) - 16

Wygląd tekstu

Tekst "czysty"

           Tekst "adnotowany"

Markup

Adnotowanie tekstu:

 • prezentacyjne (preskryptywne)
 • semantyczne (deskryptywne)

Metajęzyki adnotowania tekstu

 • 1967 - William Tunnicliffe
 • 1969 - GML - Goldfarb, Mosher, Lorie
 • 1983 - SGML
 • 1990 - HTML - Tim Berners-Lee, WWW
  <font color="red">Bakon</font>
 • 1998 - XML
  <nazwisko poprawnie="Bacon">Bakon</nazwisko>

Struktura tekstu

Dokument XML

           Prezentacja
dokument XML + arkusz XSL ? HTML, PDF, TeX, RTF

Tekst elektroniczny = XML

 • Otwarty standard
 • Niezależny od producentów oprogramowania
 • Przyjęty przez wielkie firmy (IBM, Microsoft, Sun)
 • Przeznaczony dla sieci WWW (stron internetowych)
 • Czytelny dla człowieka w postaci źródłowej
 • Prosty w zastosowaniu
 • Dostępny dla niespecjalistów
 • Umożliwia definiowanie języków specjalistycznych

Języki zdefiniowane w XML

DocBook- Computer Documentation
MathML- Matematical Markup Language
CML- Chemical Markup Language
BSML- Bioinformatic Sequence Markup Language
BIOML- BIOpolymer Markup Language
AML- Astronomical Markup Language
ThML- Theological Markup Language
GedML- Genealogical Data in XML
VHG- Virtual Hyperglossary
OMF- Weather Observation Markup Format

Przykłady projektów

 • Text Encoding Initiative
 • TEI Consortium
 • Project Gutenberg
 • Oxford Text Archive
 • Early English Books Online
 • EEBO Text Creation Partnership
 • JSTOR
 • Gallica

Formaty archwizacji plików graficznych

 • Tylko tekst, wyraźny druk
  - TIFF G4 300 dpi
 • Tekst+rysunki, szczegóły, drobny lub niewyraźny druk
  - TIFF G4 400-600 dpi
 • Tekst+ilustracje, ikonografia, bez koloru
  - TIFF 8bit LZW 200-300 dpi lub JPEG 95+ 300 dpi
 • Cymelia, druki wielokolorowe, rękopisy iluminowane
  - TIFF 24bit LZW 200-300 dpi lub JPEG 95+ 300 dpi
 • Surogaty cyfrowe
  - TIFF 24bit bez kompresji 600 dpi

Formaty archwizacji plików tekstowych

 • Czysty tekst
  - Unicode UTF-8
 • Tekst adnotowany
  - XML/TEI
 • Tekst specjalistyczny
  - XML/języki specjalne
   


- Spis treści - Poprzedni - Następny

(C) 2003 EBIB

Standardy danych w bibliotekach cyfrowych / Rafał T. Prinke // W:Internet w bibliotekach II [Dokument elektroniczny] : łączność, współpraca, digitalizacja : Wrocław, 23-26 września 2003 roku. - Dane tekstowe. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2003. - (EBIB Materiały konferencyjne). - Tryb dostępu : http://www.ebib.pl/publikacje/matkonf/iwb2/prinke.php . - Internet w bibliotekach II. - ISBN 83-915689-5-4