Internet w bibliotekach II - łączność, współpraca, digitalizacja, Wrocław, 23-26 września 2003 roku


- Spis treści - Poprzedni - Następny

   
 

Rafał T. Prinke

Biblioteka Kórnicka PAN

Standardy danych w bibliotekach cyfrowych

(na podstawie prezentacji opracował EBIB)

Standardy

wymiana informacji

  • synchroniczna (czytelność)
  • diachroniczna (długowieczność)
  • ukierunkowana (grupy odbiorców)
  • niezależna (programy, prezentacja)

Standardy: ISO, ANSI, W3C, PN Anty-standardy: Microsoft, IBM, Apple

Kryteria i preferencje

Obraz tekstu i tekst

Formaty plików graficznych

  • TIFF bez kompresji
  • TIFF z kompresją LZW - obrazy kolorowe i w szaroœciach
  • TIFF z kompresją G4 - obrazy czarno-białe
  • GIF - 256 kolorów
  • JPEG - stratny
  • DjVu - b. małe pliki
Obraz kolorowy

           Obraz w odcieniach szarości

           Obraz czarno-biały (bitonal)

           Manipulacja kolorem tła

Wielkość obrazu strony 15x22 cm

          

Kodowanie znaków tekstu

  • 1874 - Jean Baudot (1845-1903)
  • 1963 - ANSCII
  • 1964 - EBCDIC (IBM)
  • 1968 - ASCII
  • 1972 - ISO 646 (180 wersji narodowych)
    IBM/MS-DOS code pages (cp437, cp852)
    MS-Windows code pages (cp1252, cp1250)
    polskie "standardy" (Mazovia, DHN)
  • 1987 - ISO 8859-x (15 wersji regionalnych)
  • 1991 - US-ASCII = ISO 8859-1
  • 1993 - Unicode 1 = ISO 10646-1
  • 2001 - Unicode 3.2 = ISO 10646-2

Unicode

8 bitów = 256 znaków (-32)
16 bitów = 65 536 znaków (-32)
21 bitów = 870 000+ dodatkowych

1993
Unicode 1 = ISO 10646-1
2001
Unicode 3.2 = ISO 10646-2
2002
Katalog ok. 100 000 znaków


  • Abstrakcyjny znak
  • Punkt kodowy
  • Cechy znaków: alfabet, kierunek, składniki, zgodność
  • Sposób kodowania: UTF-8, UTF-16, UTF-32
  • Płaszczyzny: 0 (BMP) - 16

Wygląd tekstu

Tekst "czysty"

           Tekst "adnotowany"

Markup

Adnotowanie tekstu:

  • prezentacyjne (preskryptywne)
  • semantyczne (deskryptywne)

Metajęzyki adnotowania tekstu

  • 1967 - William Tunnicliffe
  • 1969 - GML - Goldfarb, Mosher, Lorie
  • 1983 - SGML
  • 1990 - HTML - Tim Berners-Lee, WWW
    <font color="red">Bakon</font>
  • 1998 - XML
    <nazwisko poprawnie="Bacon">Bakon</nazwisko>

Struktura tekstu

Dokument XML

           Prezentacja
dokument XML + arkusz XSL ? HTML, PDF, TeX, RTF

Tekst elektroniczny = XML

  • Otwarty standard
  • Niezależny od producentów oprogramowania
  • Przyjęty przez wielkie firmy (IBM, Microsoft, Sun)
  • Przeznaczony dla sieci WWW (stron internetowych)
  • Czytelny dla człowieka w postaci źródłowej
  • Prosty w zastosowaniu
  • Dostępny dla niespecjalistów
  • Umożliwia definiowanie języków specjalistycznych

Języki zdefiniowane w XML

DocBook- Computer Documentation
MathML- Matematical Markup Language
CML- Chemical Markup Language
BSML- Bioinformatic Sequence Markup Language
BIOML- BIOpolymer Markup Language
AML- Astronomical Markup Language
ThML- Theological Markup Language
GedML- Genealogical Data in XML
VHG- Virtual Hyperglossary
OMF- Weather Observation Markup Format

Przykłady projektów

  • Text Encoding Initiative
  • TEI Consortium
  • Project Gutenberg
  • Oxford Text Archive
  • Early English Books Online
  • EEBO Text Creation Partnership
  • JSTOR
  • Gallica

Formaty archwizacji plików graficznych

  • Tylko tekst, wyraźny druk
    - TIFF G4 300 dpi
  • Tekst+rysunki, szczegóły, drobny lub niewyraźny druk
    - TIFF G4 400-600 dpi
  • Tekst+ilustracje, ikonografia, bez koloru
    - TIFF 8bit LZW 200-300 dpi lub JPEG 95+ 300 dpi
  • Cymelia, druki wielokolorowe, rękopisy iluminowane
    - TIFF 24bit LZW 200-300 dpi lub JPEG 95+ 300 dpi
  • Surogaty cyfrowe
    - TIFF 24bit bez kompresji 600 dpi

Formaty archwizacji plików tekstowych

  • Czysty tekst
    - Unicode UTF-8
  • Tekst adnotowany
    - XML/TEI
  • Tekst specjalistyczny
    - XML/języki specjalne
   


- Spis treści - Poprzedni - Następny

(C) 2003 EBIB

Standardy danych w bibliotekach cyfrowych / Rafał T. Prinke // W:Internet w bibliotekach II [Dokument elektroniczny] : łączność, współpraca, digitalizacja : Wrocław, 23-26 września 2003 roku. - Dane tekstowe. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2003. - (EBIB Materiały konferencyjne). - Tryb dostępu : http://www.ebib.pl/publikacje/matkonf/iwb2/prinke.php . - Internet w bibliotekach II. - ISBN 83-915689-5-4