EBIB Nr 2/2007 (83), Kolory niemożności - bariery w rozwoju bibliotekarstwa w Polsce. Komunikat Poprzedni artyku  

 


Marcin Werla
Poznańskie Centrum Superkomputerowo-Sieciowe

DLibra - Sprostowanie
Piszę do Państwa w sprawie artykułu zatytułowanego Kujawsko-Pomorska Biblioteka Cyfrowa - problemy i zagadnienia związane z realizacją I etapu jej rozwoju, opublikowanego w ostatnim (11/2006 (81)) numerze Biuletynu EBIB.

W artykule tym, w części Sprzęt i oprogramowanie znajduje się akapit poświęcony oprogramowaniu dLibra, przede wszystkim błędom i niedociągnięciom występującym w tym oprogramowaniu. Niestety zawarte w tym akapicie informacje są w zdecydowanej większości nieprawdziwe lub od dawna nieaktualne. Po publikacji przez Państwa wspomnianego artykułu, mieliśmy w tej sprawie sygnały zarówno ze strony aktualnych użytkowników oprogramowania, jak i od osób potencjalnie zainteresowanych jego użyciem - sygnały z prośbą o wyjaśnienie bądź skomentowanie zawartych w artykule informacji. W związku z tym zwracam się z prośbą o umieszczenie w najbliższym numerze Biuletynu niniejszego sprostowania. Nasz komentarz do zawartych w artykule informacji zamieszczam poniżej.

Wiele problemów pojawiających się przy publikowaniu w dLibrze wynikało z niestabilności samej platformy lub dziwnych przeciążeń sieci. Trudne chwile przeżywali twórcy KPBC tuż przed dniem jej oficjalnego otwarcia, gdy niewydolna dLibra nie była w stanie zindeksować dużej liczby nagle załadowanych plików. Zamiast hucznego otwarcia mogła się zdarzyć klapa. Jedynym rozwiązaniem okazało się zawieszenie publikowania na kilka dni przed uroczystością.

Praktycznie każdy system informatyczny składa się z serwera (sprzętu) i uruchomionego na nim oprogramowania. W momencie, gdy mówimy o problemach z wydajnością takiego systemu, należy brać pod uwagę wydajność wszystkich jego składowych elementów. W przypadku biblioteki cyfrowej opartej na oprogramowaniu dLibra kluczowymi elementami są: serwer (sprzęt), baza danych oraz oprogramowanie dLibra.

Opisywana sytuacja spowodowana była nie niewydolnością dLibry, a przeciążeniem serwera. W związku ze zbliżającym się terminem oficjalnego, uroczystego otwarcia dodawane wtedy było bardzo dużo publikacji i liczba umieszczanych plików przerosła możliwości serwera. Nie nadążał on z konstruowaniem i zapisywaniem indeksów wyszukiwawczych dotyczących treści dodawanych plików. Od momentu zgłoszenia do nas faktu wystąpienia przeciążenia przez zespół KPBC praktycznie przerwaliśmy wszystkie inne prace i wprowadzaliśmy specjalne zmiany w dLibrze, żeby zminimalizować efekt jaki dało przeładowanie serwera nowymi plikami. Bez tej interwencji faktycznie mogła się zdarzyć klapa. Żeby uniknąć takiej sytuacji w przyszłości zmieniliśmy też sposób aktualizacji indeksów treści z aktualizacji bieżącej na jednorazową wykonywaną raz na dobę. Zmiana jest wdrożona już od ponad roku i problem nie występuje. Widać to np. na wykresie łącznej liczby nowych publikacji w KPBC (http://kpbc.umk.pl/stats/month-chart5.png). Problem nie wystąpiłby wcale, gdyby sprzęt na którym uruchomiona jest dLibra był na tyle mocny, żeby na bieżąco obsłużyć dużą liczbę dodawanych plików.

Sporadycznie, ale zdarzają się w KPBC przypadki, gdy transmisja danych zawiesza się, anulowanie zadania trwa wieki, a na koniec opis trzeba tworzyć od początku, bo dLibra nie zezwala na wymianę plików bądź na przeniesienie tytułu do innej kolekcji.

Możliwość wymiany plików publikacji w dLibrze istnieje od ponad roku. Możliwość przenoszenia publikacji między kolekcjami istnieje w dLibrze od początku jej rozwoju. Opis tworzony przy dodawaniu nowej publikacji może być automatycznie zabezpieczony na komputerze redaktora w formacie RDF. Taki opis można wczytać przy powtórnym dodawaniu tej samej publikacji. Ta funkcja jest również dostępna właściwie od początku wykorzystywania dLibry w KPBC.

Niektóre ograniczenia dLibry trzeba było po prostu rozpoznać, np. to, że nie uwzględnia ona znaków diakrytycznych w wyszukiwaniu (rozwiązaniem wydaje się zakup Document Express Enterprise Edition i ręczne poprawienie stron błędnie odczytanych przez OCR).

dLibra od samego początku obsługuje znaki diakrytyczne dostępne w kodowaniu UTF-8 na każdym etapie pracy z publikacją. Również na etapie indeksowania i wyszukiwania w treści. Od ponad roku w momencie indeksowania znaki diakrytyczne są przekształcane na znaki alfabetu łacińskiego, żeby ułatwić wyszukiwanie czytelnikom niepotrafiącym wprowadzić znaków diakrytycznych pochodzących spoza ich języka (np. ü dla Polaków). Mechanizm ten dotyczy jednak tylko wewnętrznych mechanizmów konstruowania indeksów wyszukiwawczych i wyszukiwania w nich. Jego efektem jest to, że szukając słowa "łyżka", można w polu wyszukiwawczym wprowadzić zarówno "łyzka", jak i "łyżka" czy "lyzka". Każde z tych zapytań da w efekcie publikacje zawierające słowo "łyżka". Jeżeli takie podejście nie odpowiada założeniom danej biblioteki cyfrowej, to omówioną konwersję znaków diakrytycznych można bez problemu wyłączyć na poziomie każdej biblioteki cyfrowej. Co więcej, trudno się doszukać winy dLibry w tym, że OCR przeprowadzany przez redaktorów zawiera błędy. dLibra indeksuje i przeszukuje to, co dostanie od redaktorów. Jeżeli faktycznie występuje konieczność zakupu tak drogiego oprogramowania jak Document Express Enterprise Edition, to nie jest to w żaden sposób spowodowane niedociągnięciami w dLibrze.

Wszystkie wykryte i rozpoznane braki oprogramowania są na bieżąco sygnalizowane autorom, stale udoskonalającym platformę. Problemy pojawiają się najczęściej przy wgrywaniu kolejnej poprawki do oprogramowania, gdy nie odnajduje się dotychczasowych funkcji w stałym miejscu (tworzenie kolekcji przenosi się z panelu redaktora do administratora).

Każdorazowo przy udostępnianiu nowej wersji na stronach dLibry prezentowane są dokładne informacje na temat głównych zmian (wraz ze zrzutami ekranów):

Przykład:
http://dlibra.psnc.pl/index.php?option=com_content&task=view&id=75&Itemid=52.

Informacje te dostępne są zawsze co najmniej na kilka dni przed wdrażaniem nowej wersji. Wspomniana tu zmiana miejsca tworzenia kolekcji wynika ze zgłoszeń, jakie otrzymaliśmy od użytkowników i wydaje się być zmianą dość naturalną. Aplikacja Redaktora służy do codziennej pracy i umieszczania publikacji. Tworzenie nowych kolekcji w bibliotece cyfrowej jest czynnością stosunkowo rzadką (zwłaszcza w porównaniu z tworzeniem nowych publikacji) i powinno być przeprowadzane przez osoby posiadające niezbędne uprawnienia administracyjne. Dlatego na pewnym etapie rozwoju dLibry funkcjonalność ta została przeniesiona do Aplikacji Administratora.

 Początek stronyDLibra - Sprostowanie / Marcin Werla// W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska. - Nr 2/2007 (83) marzec. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2007. - Tryb dostępu: http://www.ebib.info/2007/83/werla.php. - Tyt. z pierwszego ekranu. - ISSN 1507-7187