Bibliograficzne bazy danych : kierunki rozwoju i możliwości współpracy
Ogólnopolska konferencja naukowa z okazji 10-lecia bazy danych BazTech
Bydgoszcz, 27-29 maja 2009

Poprzedni - Spis treści - Następny
            

Lidia Derfert-Wolf
Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy

W kierunku bazy pełnotekstowej - inicjatywy BazTech

Abstrakt

W artykule przedstawiono inicjatywy BazTech-u zmierzające do przekształcania bazy bibliograficzno-abstraktowej w pełnotekstową. Zaprezentowano współpracę z Interdyscyplinarnym Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego oraz wydawcami czasopism w zakresie pozyskiwania pełnych tekstów artykułów. Omówiono formalne procedury współpracy oraz zasady postępowania w ramach Konsorcjum BazTech.

Słowa kluczowe

baza bibliograficzno-abstraktowa, baza pełnotekstowa, BazTech, nauki techniczne, polskie czasopisma naukowe

Abstract

The paper presents the BazTech’s initiatives which lead to transforming the database from a bibliographic one into a full-text one. It points out the co-operation between ICM UW and journal publishers in the field of gaining full-text articles. It also discusses the formal procedures of the co-operation and the rules of proceeding within Konsorcjum BazTech.

Keywords

bibliographic database, full-text database, BazTech, technical sciences, Polish scientific journals

pdf prezentacja

„Baza danych o zawartości polskich czasopism technicznych” BazTech powstała w 1998 r. jako baza bibliograficzno-abstraktowa[1]. Od początku jest udostępniana bezpłatnie w Internecie, obecnie w ramach Biblioteki Wirtualnej Nauki Interdyscyplinarnego Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego (ICM UW) http://vls.icm.edu.pl/index_org.html, pod adresem http://baztech.icm.edu.pl. Baza zawiera opisy artykułów z polskich czasopism z zakresu inżynierii, techniki oraz w wyborze z nauk ścisłych i ochrony środowiska; liczy ok. 160 tys. rekordów[2]. Wśród 500 tytułów rejestrowanych w BazTech-u[3], znaleźć można czasopisma punktowane przez Ministerstwo Nauki i Szkolnictwa Wyższego (MNiSW)[4] oraz wszystkie polskie czasopisma techniczne z Thomson Reuters Master Journal List[5]. Rekordy artykułów zawierają:

  • tytuł artykułu w języku polskim i/lub angielskim,
  • nazwiska autorów,
  • tytuł czasopisma,
  • rok publikacji, opis fizyczny,
  • słowa kluczowe w języku polskim i/lub angielskim,
  • miejsce zatrudnienia oraz e-mail pierwszego autora,
  • język publikacji i typ dokumentu,
  • streszczenie w języku polskim i/lub angielskim

Opisy artykułów od 2006 r. uzupełniane są dodatkowo o bibliografie załącznikowe, wprowadzane jako jedno pole tekstowe (rys. 1).



Rys. 1. Rekord artykułu BazTech w interfejsie YADDA (wersja testowa)
Źródło: opracowanie własne na podstawie: BazTech [on-line]. [Dostęp 23 maja 2009]. Dostępny w World Wide Web: http://lodowy.icm.edu.pl/baztech/.

Opracowywane są też wyczerpujące opisy czasopism zawierające (rys. 2 i 3):

  • tytuł czasopisma,
  • dane wydawcy: nazwa, adres, URL, e-mail,
  • dane redakcji: nazwa, adres, URL, e-mail,
  • numer ISSN i częstotliwość,
  • informacje o zmianach w tytule z linkami do poprzedniego i/lub następnego tytułu,
  • informacje o prenumeratorach danego tytułu spośród instytucji tworzących bazę,
  • okładkę czasopisma (plik graficzny),
  • uwagi, m.in. punktację czasopism według MNiSW,
  • informacje o dostępności pełnych tekstów artykułów na witrynach wydawców/redakcji oraz linki do tych witryn.



Rys. 2. Rekord czasopisma w bazie danych BazTech
Źródło: opracowanie własne na podstawie: BazTech [on-line]. [Dostęp 23 maja 2009]. Dostępny w World Wide Web: http://lodowy.icm.edu.pl/baztech/.



Rys. 3. Rekord czasopisma BazTech w interfejsie YADDA (wersja testowa)
Źródło: opracowanie własne na podstawie: BazTech [on-line]. [Dostęp 23 maja 2009]. Dostępny w World Wide Web: http://lodowy.icm.edu.pl/baztech/.

Bazę danych tworzy Konsorcjum BazTech zrzeszające 22 instytucje[6], pod kierunkiem Politechniki Krakowskiej (w latach 1998–2006 koordynatorem była Akademia Techniczno-Rolnicza w Bydgoszczy). Zespół redaktorów (edytorów rekordów) liczy obecnie ok. 70 osób. Za zawartość merytoryczną, administrowanie danymi oraz kontakty z wydawcami i redakcjami czasopism odpowiada Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego.

W miarę rozwoju bazy, jak również rozwoju witryn internetowych czasopism, starano się ulepszać funkcjonalność i przydatność BazTech-u. Należy tu dodać, że w momencie powstawania bazy niewiele czasopism posiadało strony internetowe. W 2000 r. podjęliśmy inicjatywę stałego monitorowania tego zjawiska. Analizowaliśmy:

  • Czy czasopismo ma własną witrynę, czy jest to tylko wzmianka o nim na witrynie wydawcy?
  • Czy udostępniane są streszczenia artykułów w języku polskim i/lub angielskim?
  • Czy udostępniane są pełne teksty artykułów i na jakich zasadach?

W rezultacie tej analizy podjęto inicjatywę rozbudowy rekordu czasopisma o pola: URL witryny wydawcy i/lub redakcji oraz URL witryny z pełnymi tekstami artykułów. Wprowadzenie tych informacji w rekordzie skutkuje natychmiastowym pojawieniem się ich on-line, w opisie czasopisma (rys. 2 i 3). Trzeci element – adres strony z pełnymi tekstami artykułów – jest dodatkowo ujawniany na liście czasopism w postaci oznaczenia Selected full texts przy tytułach tych czasopism, których wybrane bądź wszystkie roczniki występują w sieci w wersji pełnotekstowej na witrynach wydawców/redakcji (rys. 4). Takie samo oznaczenie pojawia się w rekordach artykułów z tych czasopism, w polu „Czasopismo” (rys. 5). Opisywane tu funkcjonalności dostępne są w obecnym interfejsie BazTech (http://baztech.icm.edu.pl) oraz częściowo, w przygotowywanym nowym interfejsie YADDA (wersja testowa: http://lodowy.icm.edu.pl/baztech/). W tym drugim nie ma na razie na liście tytułów czasopism żadnych oznaczeń wskazujących na to, że w sieci są dostępne pełne teksty. Taka informacja widnieje tylko w rekordach czasopism (rys. 3).



Rys. 4. Lista czasopism indeksowanych w bazie danych BazTech
Źródło: opracowanie własne na podstawie: BazTech [on-line]. [Dostęp 23 maja 2009]. Dostępny w World Wide Web: : http://baztech.icm.edu.pl.



Rys. 5. Rekord artykułu w bazie danych BazTech (informacja o dostępności pełnego tekstu)
Źródło: opracowanie własne na podstawie: BazTech [on-line]. [Dostęp 23 maja 2009]. Dostępny w World Wide Web: : http://baztech.icm.edu.pl.

Spośród wszystkich czasopism zarejestrowanych w BazTech-u, 156 udostępnia na witrynach redakcji/czasopism pełne teksty artykułów, co stanowi 31,3% ogółu tytułów z bazy. Nie można wprost powiedzieć, że są to czasopisma typu open access (OA), ale z pewnością wiele z nich ukazuje się na zasadach OA, przy czym zdecydowana większość to tzw. zdublowany OA – wersja elektroniczna jest dostępna za darmo, a wersja papierowa jest sprzedawana w prenumeracie. Zgodnie z podziałem czasopism OA według M. Nahotki[7], mamy w tej grupie tytułów BazTech-u czasopisma umożliwiające np.:

  • bezpłatny dostęp do wszystkich artykułów – bez ograniczeń,
  • dostęp do pełnych tekstów po upływie określonego przez wydawcę czasu,
  • dostęp do wybranych przez redakcję artykułów według kryteriów treściowych lub formalnych.

Większość pełnych tekstów z ww. modeli publikowania dostępna jest na witrynach wydawców/redakcji, bez żadnych ograniczeń. Jedynie w przypadku kilku tytułów wymagana jest bezpłatna rejestracja. Należy tu dodać, że w bazie BazTech oznaczenia Selected full texts pojawiają się wyłącznie w przypadku bezpłatnego udostępniania wszystkich albo wybranych artykułów w wersji pełnotekstowej. Poza tym przyjęto zasadę podawania linków tylko do stron czasopism, a nie stron, na których z różnych względów znalazł się pełen tekst, np. witryn osób czy instytucji. Wyjątek stanowią linki do bibliotek cyfrowych, w których znaleźć można elektroniczne wersje czasopism, udostępniane na podstawie umów bibliotek z wydawnictwami. Dotyczy to głównie wydawnictw uczelnianych, np. „Czasopisma Technicznego” Politechniki Krakowskiej.

Analizując bliżej czasopisma rejestrowane w BazTech-u, udostępniające wersje pełnotekstowe na własnych witrynach, dochodzimy do wniosku, że większość z nich to czasopisma wydawane przez jednostki naukowe, w tym instytuty naukowo-badawcze, komitety PAN, instytuty i katedry szkół wyższych. Są to często czasopisma, których wydawanie jest dotowane przez MNiSW. Zapewne liczba czasopism w tej grupie będzie rosła z uwagi na to, że parametrami oceny czasopism naukowych przez MNiSW są m.in: istnienie strony internetowej z dostępem do streszczeń oraz istnienie strony internetowej z dostępem do pełnych tekstów. Natomiast czasopisma fachowe, branżowe udostępniają coraz częściej pełne teksty, ale wyłącznie na zasadach odpłatności albo jako dodatkową opcję do wersji drukowanej dla prenumeratorów – takich tytułów w bazie BazTech nie traktuje się jako Selected full texts.

Czasopisma oznakowane w BazTech-u Selected full texts występują też w bazie Directory of Open Access Journals (DOAJ): http://www.doaj.org/, rejestrującej czasopisma OA z całego śwata, w tym 70 tytułów z Polski. W DOAJ jest jedynie dziewięć czasopism z BazTech-u[8] – brakuje wielu renomowanych tytułów, wysoko punktowanych przez MNiSW i występujących na Thomson Reuters Master Journal List. Przyczyn jest z pewnością wiele. Kryteria doboru czasopism do DOAJ są ściśle określone i dyskwalifikowane są np. czasopisma, które umożliwiają dostęp do pełnych tekstów po upływie określonego przez wydawcę czasu. Poza tym zamieszczenie w DOAJ wymaga zazwyczaj zgłoszenia przez wydawcę, a nie wszyscy wydawcy być może wiedzą o istnieniu tego katalogu. Z drugiej strony proces zgłaszania czasopism do prestiżowych baz danych i wykazów jest coraz bardziej powszechny, co twórcy BazTech-u obserwują na własnym przykładzie. Należy więc oczekiwać zwiększenia reprezentacji polskich czasopism naukowych w DOAJ, liczącym obecnie 4159 czasopism OA z całego świata.

Podobnych analiz występowania czasopism „baztechowych” w innych bazach i katalogach można by robić więcej, ale nie jest to przedmiotem niniejszego artykułu. Warto jednakże wspomnieć o krajowym serwisie „Naukowe i Fachowe Polskie Czasopisma Elektroniczne” ARIANTA: http://www1.bg.us.edu.pl/bazy/czasopisma/, gdzie występują niemal wszystkie czasopisma z BazTech-u. Serwis jest niezwykle przydatny przy bieżącym monitorowaniu czasopism pod kątem udostępniania pełnych tekstów (opcja wyszukiwanie „Oprócz spisów treści: pełne teksty”) oraz przy analizowaniu nowego tytułu, przed włączeniem do kolekcji BazTech.

Opisany wyżej sposób docierania do pełnych tekstów artykułów z czasopism rejestrowanych w BazTech-u jest jedynie pośrednictwem pomiędzy użytkownikiem a witryną czasopisma. Z uwagi na to, że zasoby BazTech są indeksowane przez wyszukiwarki Google i Google Scholar, użytkownik dociera do rekordów BazTech różnymi sposobami, niekoniecznie korzystając bezpośrednio z bazy. I fakt, że w rekordzie jest informacja Selected full texts ułatwia z pewnością dotarcie do tekstu artykułu. Nie jest to jednak doskonała metoda i twórcy bazy od początku byli tego świadomi, dążąc do lepszych rozwiązań. Dyskutowane były propozycje dodawania w rekordach artykułów linku kierującego bezpośrednio do pełnego tekstu na stronie czasopisma. Takie rozwiązanie miało jednak kilka wad:

  1. brak gwarancji wieczystego utrzymywania tekstu pod tym samym adresem URL przez wydawcę/redakcję,
  2. konieczność ciągłej weryfikacji linków, co przy wielkości bazy danych nie jest możliwe,
  3. bardzo zróżnicowane formy i formaty udostępniania tekstów przez wydawców/redakcje.

Kolejny etap rozwoju BazTech-u w kierunku bazy pełnotekstowej rozpoczął się w momencie nawiązania współpracy z ICM UW w zakresie oprogramowania do edycji i prezentacji danych BazTech, w ramach systemu YADDA (http://yaddainfo.icm.edu.pl/). Jednym z elementów YADDA jest repozytorium danych, na które składają się: archiwum treści, ich katalog oraz indeksy pozwalające przeglądać i przeszukiwać kolekcję. BazTech jest jednym z takich repozytoriów, na razie jako baza bibliograficzno-abstraktowa, a w planach jako kolekcja pełnych tekstów naukowo-edukacyjnych z zakresu szeroko pojętej inżynierii i techniki. Baza ma więc zaplecze programistyczne i miejsce na serwerach ICM UW, zarówno dla opisów bibliograficznych, jak i pełnych tekstów publikacji. Z drugiej strony, dotychczasowe dobre kontakty z wydawcami/redakcjami czasopism zapewne wpłyną korzystnie na proces zdobywania pełnych tekstów w wersji elektronicznej.

Twórcy bazy danych BazTech rozpoczęli w 2008 r. pozyskiwanie pełnych tekstów artykułów, testując ich zamieszczanie w bazie na platformie YADDA. Cały proces przebiega zgodnie z ustaloną procedurą współpracy z ICM UW oraz zgodnie z obowiązującym prawem autorskim i polityką wydawców. Podstawowe założenia są następujące:

  • Konsorcjum BazTech zabiega u redakcji/wydawców czasopism już rejestrowanych w bazie o przekazywanie pełnych tekstów artykułów;
  • pozostałe czasopisma z zakresu nauk technicznych oraz w wyborze nauk ścisłych i ochrony środowiska, powinny być również zamieszczane w kolekcji BazTech. Dotyczy to:
    • wydawców czasopism, z którymi ICM nawiązało/nawiązuje kontakt,
    • czasopism rejestrowanych w innych kolekcjach YADDA, np. BazHum, AGRO, kolekcja matematyczna ICM UW;
  • teksty w wersji elektronicznej (w formacie PDF) przechowywane są na serwerze ICM UW na podstawie umów pomiędzy wydawcami czasopisma a ICM UW;
  • Konsorcjum BazTech opracowuje metadane (rekordy bibliograficzne) do ww. publikacji w programie do edycji systemu YADDA – DeskLight.

Z ww. procedury wynikają zadania Konsorcjum BazTech, polegające głównie na zabieganiu u redakcji/wydawców czasopism rejestrowanych w bazie o przekazywanie pełnych tekstów artykułów. W tym celu wspólnie z ICM przygotowano pismo przewodnie kierowane do wydawców[9] oraz wzór umowy pomiędzy wydawcą a ICM UW w sprawie przekazywania tekstów publikacji. W umowie zawarte jest stwierdzenie, że wydawca wyraża zgodę na opracowanie metadanych przez współpracujące z ICM konsorcjum BazTech. Zamieszczono też szczegółowe zasady pośredniczenia BazTech-u w upowszechnianiu treści artykułów. Generalnie ustalono, że wydawca przesyła drogą elektroniczną zawartość każdego artykułu w formacie PDF. Przekazuje je osobie wskazanej przez Konsorcjum BazTech, odpowiedzialnej za opracowanie metadanych niezbędnych do efektywnego wyszukiwania artykułów. Metadane to dotychczasowe elementy opisu bibliograficznego rekordu BazTech. W praktyce osoba z BazTech-u odpowiedzialna za pełne teksty pośredniczy w uzgadnianiu szczegółów umowy z ICM. Następnie biblioteki ustalają z redakcją/wydawcą tryb przekazywania e-tekstów, np. dostarczanie poprzez e-mail albo pobieranie plików PDF ze strony internetowej czasopisma za zgodą wydawcy.

Opisany wyżej plan będzie realizowany na szerszą skalę w odniesieniu do redakcji czasopism indeksowanych w BazTech-u, które na swoich witrynach udostępniają pełne teksty publikacji. Jednocześnie w trakcie opracowywania procedur zgłaszały się do nas redakcje nowych czasopism z prośbą o indeksowanie w BazTech-u, którym od razu proponowaliśmy ww. formę współpracy. W rezultacie mamy obecnie podpisane umowy z wydawcami następujących pięciu czasopism:

  • „Journal of Automation Mobile Robotics and Intelligent Systems”,
  • „Polish Hyperbaric Research”,
  • „Problemy Klimatologii Polarnej”,
  • „Zeszyty Naukowe Akademii Marynarki Wojennej”,
  • „Zeszyty Naukowe”/Wyższa Szkoła Oficerska Wojsk Lądowych im. gen. T. Kościuszki.

Wydawcy tych czasopism wyrazili zgodę na pobieranie plików ze stron internetowych. Z uwagi na to, że nie pracujemy jeszcze w nowym programie do wprowadzania danych – DeskLight – praca przebiega następująco:

  • osoba odpowiedzialna z BazTech-u pobiera ze strony czasopisma adresy URL poszczególnych tekstów artykułów w formacie PDF,
  • tworzy zestawienie tych adresów, uzupełniając tytułami artykułów i numerami ID rekordów w BazTech-u,
  • przesyła zdalnie zestawienie do ICM UW,
  • plik PDF z pełnym tekstem ukazuje się w odpowiednim rekordzie w interfejsie YADDA, w kolekcji BazTech: http://lodowy.icm.edu.pl/baztech/ (rys. 1).

W momencie rozpoczęcia edycji rekordów w DeskLight, pełen tekst będzie dodawany bezpośrednio w tym programie i natychmiast prezentowany w sieci. Obecnie jednak z powodzeniem realizowane są prace według ww. schematu. Do maja 2009 r. dodano ok. 300 plików z pełnymi tekstami. W zależności od tytułu są to teksty od początku ukazywania się czasopisma bądź od rocznika/numeru wskazanego w umowie przez wydawcę.

Przed Konsorcjum BazTech stoją zatem dwa główne zadania zmierzające do przekształcenia bazy bibliograficznej w kolekcję pełnotekstową:

  • pozyskiwanie kontaktów z wydawcami skłonnymi do zamieszczania tekstów elektronicznych w repozytorium,
  • w zakresie programistycznym – przeszukiwanie pełnych tekstów publikacji.

Obydwa zadania będą realizowane w ścisłej współpracy z ICM UW. Dodatkowo, biorąc pod uwagę to, że w systemie YADDA będą udostępniane inne kolekcje czy repozytoria, BazTech chętnie podejmie współpracę z ich twórcami, w trosce o ujednolicenie formatu danych oraz unikanie dublowania prac. Natomiast poziom uzupełniania wszystkich kolekcji pełnymi tekstami publikacji będzie zależał częściowo od aktywności twórców baz danych, ale głównie od woli wydawców czasopism i ich podejścia do idei otwartej nauki i ruchu Open Access[10].

Przypisy

[1] Pierwszy rekord BazTech ukazał się w Internecie w styczniu 1999 r.

[2] Według stanu na 15 maja 2009 r.

[3] Według stanu na 15 maja 2009 r.

[4] Ujednolicony wykaz czasopism punktowanych [on-line]. Ministerstwo Nauki i Szkolnictwa Wyższego, 5 maja 2009 r. [Dostęp 15 maja 2009]. Dostępny w World Wide Web: http://www.nauka.gov.pl/mn/index.jsp?place=Lead08&news_cat_id=470&news_id=8245&layout=2&page=text.

[5] Master Journal List [on-line]. Thomson Reuters, 2009 [Dostęp 15 maja 2009]. Dostępny w World Wide Web: http://scientific.thomson.com/mjl/.

[6] Wykaz instytucji tworzących bazę danych BazTech dostępny jest na stronie http://baztech.icm.edu.pl/info.html#tbazy.

[7] NAHOTKO, M. Naukowe czasopisma elektroniczne. Warszawa: SBP, 2007, s. 98–100. ISBN 978-83-89316-73-8.

[8] Czasopisma występujące na liście BazTech i jednocześnie rejestrowane w DOAJ (według stanu z 15 maja 2009 r.): „Acta Chromatographica”, „Acta Geologica Polonica”, „Geochronometria”, „Journal of Automation”, „Mobile Robotics & Intelligent Systems”, „Oceanologia”, „Optica Applicata”, „Polish Journal of Chemical Technology”, „Polish Maritime Research”, „Transport Problems: an International Scientific Journal” (Problemy Transportu).

[9] Pismo podpisane przez dyrektora ICM UW dostępne jest na witrynie BazTech-u pod adresem: http://baztech.icm.edu.pl/wydawcy_list.pdf.

[10] Wyniki badań wydawców naukowych przeprowadzonych w 2007 r. przedstawiono w: NIEZGÓDKA, M., TARKOWSKI, A. Projekt DIR jako przykład praktycznej realizacji idei Open Access. Prezentacja na IV Ogólnopolskiej Konferencji EBIB: Internet w bibliotekach. Open Access. W: E-LIS E-pronts in Library and Information Science [on-line]. [Dostęp 17 maja 2009]. Dostępny w World Wide Web: http://eprints.rclis.org/archive/00012469/.

            

Poprzedni - Spis treści - Następny

(C) 2009 EBIB

            W kierunku bazy pełnotekstowej - inicjatywy BazTech / Lidia Derfert-Wolf, // W: Bibliograficzne bazy danych : kierunki rozwoju i możliwości współpracy. Bydgoszcz, 27-29 maja 2006. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2009. - (EBIB Materiały konferencyjne nr 19). - ISBN: 83-921757-5-1. -Tryb dostępu : http://www.ebib.pl/publikacje/matkonf/mat19/derfert.php