IV Ogólnopolska Konferencja EBIB Internet w bibliotekach
Open Access
Toruń, 7-8 grudnia 2007 roku

Poprzedni - Spis treści - Następny

            

Marek Nahotko
Instytut Informacji Naukowej i Bibliotekoznawstwa, Uniwersytet Jagielloński

Wpływ Open Access na poziom cytowań publikacji

Open Access influence on scientific publications citation level

Abstrakt

Od kilku lat można obserwować szybki rozwój kilku sposobów udostępniania publikacji naukowych w trybie Open Access, opatrywanych różnymi nazwami, takimi jak „złoty”, „platynowy”, „zielony” Open Access. Każdy z tych sposobów, bezpłatnego dla użytkownika końcowego udostępniania treści naukowych, ma nieco odmienny wpływ na komunikację naukową. Pojawiają się pytania o to czy OA powoduje wzrost cytowań w ten sposób udostępnianych artykułów, a więc czy wystarczy udostępnić swoją publikację w trybie OA, aby cieszyć się zwiększonym współczynnikiem cytowań. W referacie przedstawione zostaną związki pomiędzy sposobem realizacji publikowania Open Access a miarą cytowań artykułów naukowych. Omówione zostaną także inne czynniki wpływające na poziom cytowań publikacji OA, takie jak dyscyplina reprezentowana przez autora. Przedstawione też zostaną najczęściej stosowane metody badań w tym zakresie.

Abstract

For the last several years a dynamic development of some modes of Open Access scientific dissertations publishing, known as “golden”, “platinum” or “green” Open Access, has been observed. Each of the modes of free access to the scientific content offered to an end user influences scientific communication in a different way. A question appears whether OA causes the increase in citations of articles published that way, so consequently it is enough to publish the work in the Open Access mode in order to get an increased citation factor. Relations between a mode of Open Access publishing and a number of scientific dissertation citations will be presented in the paper. The other elements influencing the level of OA publications citation, such as author’s scientific discipline, will be described. The most often used research methods of the subject will be also presented.


Wstęp

Wraz z pojawieniem się Internetu i publikowania elektronicznego niezbędne stały się nowe modele komunikacji naukowej, które zachowywałyby przydatne cechy dotychczasowego systemu, jednocześnie zmieniając go tam, gdzie przestał być wydolny wywołując różnego rodzaju kryzysy, jak np. kryzys czasopism przejawiający się m.in. drastycznym wzrostem ich cen. Najbardziej obiecującą nowością jest ruch Open Access (OA). Jest on rozumiany jako wolne, nieodwoływalne, światowe i długotrwałe prawo dostępu do dzieł, wraz z ich kopiowaniem, wykorzystywaniem, rozpowszechnianiem, przetwarzaniem i publicznym odtwarzaniem oraz tworzeniem i rozpowszechnianiem prac pochodnych za pośrednictwem dowolnego medium cyfrowego[1]. Prawa te dotyczą wszystkich użytkowników Internetu, a więc są powszechne. Mimo istnienia ogólnie przyjętej definicji, sposoby realizacji idei OA bywają różne. Najogólniej wyróżnia się dwa modele: „złoty” i „zielony”. W modelu złotym wykorzystuje się tradycyjny system publikacji czasopisma, ze zmianą jednakże zasad ekonomicznych (finansowania). Wcześniej prenumerator (zwykle biblioteka) płacił za dostęp swoich użytkowników do ostatecznej wersji recenzowanego artykułu. Obecnie autor lub sponsor (na przykład rząd poprzez granty na prace naukowe) płaci za opublikowanie artykułu, dzięki czemu dostęp do tekstu jest bezpłatny dla każdego. Czasopismo może stosować wyłącznie ten model lub wykorzystywać podejście hybrydowe, będące połączeniem prenumeraty ze sponsorowaniem publikacji. Istnieją także czasopisma OA stosujące całkowicie odmienny model finansowania, w całości sponsorowane przez wydawcę niekomercyjnego, np. stowarzyszenie, uczelnię itp. Zielony model OA polega na przekazywaniu przez autorów tekstów swoich prac do repozytorium (archiwum elektronicznego) instytucjonalnego lub dziedzinowego, albo w formie preprintu (zanim artykuł przekazany będzie do recenzji i ukaże się w czasopiśmie, a co za tym idzie bez poprawek wskazanych przez recenzentów), albo jako postprint, czyli ostateczna wersja tekstu po recenzowaniu. Najmniej sformalizowaną formą archiwizacji, lecz bardzo popularną jest wykorzystywanie stron Web poszczególnych autorów, na których umieszczane są spisy ich publikacji (często w układzie chronologicznym lub działowym) z odnośnikami do pełnych tekstów. Artykuły umieszczane w Internecie początkowo jako preprinty mogą być później publikowane albo stając się automatycznie postprintami (jeśli obie wersje się nie różnią), albo będąc zastępowane przez wersje ostateczne. Funkcjonowanie zielonego OA przez długi czas zakładało istnienie czasopism (tradycyjnych i elektronicznych), w których po zrecenzowaniu publikowane były teksty wcześniej zarchiwizowane w repozytorium. Z takiego punktu widzenia zielony OA wymaga funkcjonowania tradycyjnego systemu rozpowszechniania czasopism, gdyż oba te sposoby publikowania funkcjonują odrębnie i spełniają inne zadania. Później okazało się, że niektórzy autorzy, w niektórych dyscyplinach poprzestają na umieszczeniu tekstu w repozytorium, w ogóle nie poszukując możliwości jego publikacji w inny sposób. Autoarchiwizacja może więc nie być związana z żadną formą publikowania tradycyjnego, a wówczas archiwizowane treści nabierają cech szarej literatury.

W ostatnich latach na świecie prowadzi się coraz większą liczbę badań dotyczących wpływu różnych modeli OA na komunikację naukową. Metody tych badań z konieczności (ze względu na bardzo szybki rozwój sposobów publikowania OA) powstawały jednocześnie z badanymi przy ich pomocy modelami OA. Jednym z najczęściej badanych zagadnień był domniemany wzrost cytowań publikacji udostępnianych w trybie OA. Na to zagadnienie można spojrzeć także z drugiej strony, z punktu widzenia naukowców-autorów, zadając pytanie o korzyści, jakie uzyskają artykuły, a tym samym ich autorzy, w postaci zwiększonej liczby cytowań, dzięki zastosowaniu modeli złotego lub zielonego OA. W dalszej części referatu podejmę próbę odpowiedzi na te pytania poprzez przedstawienie wyników realizowanych w tym zakresie badań oraz ich metodologii; w efekcie można będzie spróbować przedstawić obszary, które warte są dalszych analiz.

Metodologia analizy cytowań

Cytowanie jest definiowane jako wyszczególnienie (lista) wcześniej opublikowanych artykułów w części źródłowej danej pracy; zwykle przyjmuje się, że cytowanie oznacza relewancję cytowanego artykułu do tekstu, w którym się go cytuje. Informacje o artykułach i cytowaniach między nimi gromadzone są w bazach danych nazywanych indeksami cytowań. Najlepiej znanym przykładem takiej bazy danych jest Web of Science firmy ISI/Thomson Scientific http://scientific.thomson.com/products/wos/, która obecnie zawiera około 40 mln rekordów bibliograficznych i ponad 550 mln cytowań za ponad sto lat (od 1900 r.)[2]. Jej sztandarowym produktem jest Science Citation Index, najstarszy i najlepiej znany indeks cytowań. Innymi indeksami są na przykład Scopus http://www.scopus.com/, Google Scholar http://scholar.google.com/, CiteSeer http://citeseer.ist.psu.edu/ oraz Astrophysics Data System (ADS) tworzona przez NASA http://adsdoc.harvard.edu. Analiza cytowań, dla której wykorzystuje się indeksy cytowań, jest podstawowym narzędziem stosowanym w bibliometrii[3]; jest ona definiowana jako ilościowa analiza elementarnych jednostek komunikacji naukowej (np. artykułów, rozdziałów z książek itp.) oraz łączących je cytowań. Bibliometria stanowi odrębną dyscyplinę, w zakresie której działają odrębne towarzystwa naukowe, czasopisma, konferencje, listy dyskusyjne itp.

Bibliometria jest dziedziną wyspecjalizowaną i złożoną, stosującą metody o wiele bardziej zaawansowane niż proste liczenie cytowań. Mimo zaawansowanej metodologii badań bibliometryczne mierzenie relacji pomiędzy OA a cytowaniami napotyka na kilka zasadniczych trudności:

  • Problematyczne jest porównywanie rozwoju cytowań z datami publikacji lub datami przekazania artykułu do publikacji. Cytowania do artykułów przybywają w czasie, przez co w typowych sytuacjach starsze artykuły są częściej cytowane niż nowe. Dla pominięcia tego efektu należy uwzględniać cytowania z określonego okresu po opublikowaniu lub wysłaniu tekstu, co umożliwia właściwe porównanie artykułów opublikowanych w różnym czasie.
  • Porównania przeciętnych cech dwóch zestawów artykułów (utworzonych według kryterium np. tytułu czasopisma, przedmiotu, narodowości lub dostępności OA) muszą być prowadzone bardzo ostrożnie, gdyż takie zestawy zwykle zawierają zróżnicowane populacje cechujące się znacznym rozrzutem rozkładu cytowań.
  • Według części autorów dużą, negatywną rolę w analizach cytowań odgrywa czynnik selekcji[4]. Według nich „artykuły o wyższej jakości są częściej udostępniane online”, a co za tym idzie również częściej cytowane. Selekcja ta może być dokonywana na poziomie zarówno autorów, jak i redakcji. Istnienie i wpływ tego typu selekcji nie jest jednak udowodniony. Można wręcz wyobrazić sobie odwrotny wpływ selekcji: autorzy udostępniają online raczej teksty opisujące bieżące wyniki badań, natomiast ostateczny tekst kompleksowo opisujący ich wyniki i najbardziej nadający się do cytowania umieszczają w czasopiśmie, często nie-OA. Podobnie redakcje najlepsze teksty, co do których można spodziewać się wysokiej sprzedaży (oraz cytowań), na ogół nie udostępniają w ramach OA. Dużą rolę natomiast może odgrywać aktualność informacji publikowanych w OA.
  • Na koniec należy uwzględnić zróżnicowanie dziedzinowe, gdyż rozpowszechnianie treści naukowych przy pomocy artykułów w czasopismach nie jest głównym kanałem komunikacji naukowej we wszystkich dyscyplinach[5], a także dlatego, że zasady cytowań przyjęte w odmiennych dziedzinach różnią się znacznie, co bardzo utrudnia porównywanie wyników otrzymanych dla wielu dyscyplin.

Korelacja poziomu dostępności online i wzrostu cytowań

Pierwsze badania dotyczące korelacji pomiędzy udostępnieniem artykułów online, a wzrostem współczynnika cytowań przedstawione zostały w 2001 roku[6]. Badania te dotyczyły wyłącznie referatów z materiałów konferencyjnych w zakresie informatyki. Oceniano współzależność udostępniania pełnych tekstów artykułów w trybie online oraz liczby ich cytowań (z wyłączeniem samocytowań, czyli cytowań własnych prac przez autora publikacji), otrzymanych przy pomocy indeksowej bazy danych ResearchIndex (znanej pod nazwą CiteSeer).

Badania wykazały korelację pomiędzy prawdopodobieństwem udostępnienia online pełnego tekstu artykułu oraz całkowitą liczbą cytowań dla referatów konferencyjnych opublikowanych w niepokrywających się kolejnych parach lat od 1989 do 1999 roku. Referaty częściej cytowane oraz referaty nowsze ze znacznie większym prawdopodobieństwem są referatami dostępnymi online. Średnia liczba cytowań dla referatów drukowanych wynosiła 2,74 a dla materiałów online 7,03, czyli była 2,6 razy wyższa, przy czym wskaźnik ten ulega zmianom w czasie – starsze artykuły są częściej cytowane i jednocześnie rzadziej są dostępne online. Po uwzględnieniu tej tendencji okazało się, że referaty online są cytowane 4,5 razy częściej. Wskaźnik cytowań dla artykułów dostępnych online jest średnio o 336% wyższy niż artykułów niedostępnych online, ale przedstawionych na tej samej konferencji. W badaniach założono bowiem, że referaty przedstawione na tej samej konferencji mają podobną jakość, a w związku z tym powinny otrzymać podobną liczbę cytowań. Kolejne badania tego autora, w których zastosowano silniejsze kryteria selekcji referatów konferencyjnych (wybrano 20 najlepszych konferencji w celu ujednolicenia jakości badanych referatów) spowodowały spadek wskaźnika cytowań dla artykułów online do 286%. Jak twierdzi Steve Lawrence, z badań tych wynika, że bezpłatna dostępność online literatury naukowej daje znaczne korzyści nauce i społeczeństwu. Maksymalizuje wpływ (impact) autorów, minimalizuje redundancję, przyspiesza rozwój nauki.

Inne badania z tego samego okresu przedstawiały konsekwencje umieszczenia wybranych artykułów z lat 1997-1999 na stronie Web czasopisma z zakresu medycyny[7]. Jest to złoty OA na poziomie artykułów, jednak bez potrzeby zapewnienia sponsorowania kosztów publikacji przez autora czy kogokolwiek innego. Analizy zostały skomplikowane przez fakt, że do końca czerwca 1998 roku, a więc przez połowę badanego okresu, artykuły nie przeznaczone do udostępniania OA były tylko drukowane; później wszystkie artykuły dostępne były online, część w OA, część odpłatnie. Dla każdego artykułu obliczone zostały trzy miary: statystyki wykorzystania w Web, wskaźnik cytowań w literaturze fachowej (przy pomocy SCI) oraz percepcji autorów (przy pomocy wywiadów). Autorzy badań zauważyli kilka problemów dotyczących analizy cytowań artykułów OA. Artykuły publikowane tylko online wybierane były nie przez ich autorów, ale przez redakcję na podstawie kryterium „preferencji artykułów o spodziewanym szerszym zainteresowaniu międzynarodowym”, ale niekoniecznie na podstawie ich jakości czy ważności naukowej, w porównaniu do tych, które przyjęte zostały do opublikowania drukiem. Usunięcie możliwości wpływu selekcji dokonywanych przez autorów na rzecz selekcji dokonywanych przez redakcję może być wystarczającą przyczyną różnic w zaobserwowanych średnich wskaźnikach cytowań. W wyniku badań okazało się, że wskaźniki cytowań dla materiałów drukowanych i online są podobne, z niewielką przewagą tych pierwszych. Okazało się, że artykuł online otrzymywał przeciętnie 2,16 do 4,02 mniej cytowań niż drukowany. Autorzy tłumaczą taki wynik brakiem zainteresowania wersją online wśród lekarzy praktyków (w odróżnieniu od lekarzy naukowców), którzy stanowili większość wśród czytelników czasopisma (ok. 80%).

Opisane dotąd prace, pomimo różnic ukazują problem metodologiczny występujący podczas badań dotyczących wpływu OA na cytowania. Przedstawiają one zalety i wady cytowań, jednak wszystkie cierpią na brak jasnych i precyzyjnych metod liczenia cytowań oraz nie uwzględniają wpływu selekcji artykułów do publikowania online, wykonywanej czy to przez autorów, czy też redakcję. Problemem są także samocytowania autorskie, będące źródłem zniekształceń analiz komunikacji naukowej; są one bardziej prawdopodobne dla artykułów autorstwa wielu osób. Można także spodziewać się, że artykuły wielu autorów z większym prawdopodobieństwem będą także autoarchiwizowane przez jednego lub więcej autorów czy w inny sposób udostępnione online. Na wynikach pierwszych badań prowadzonych w latach 90. ubiegłego wieku ciąży także fakt niewielkiego ówcześnie rozwoju ruchu OA, przez co z natury rzeczy publikacje nie-OA w próbach badawczych były często nadreprezentowane ilościowo.

Korelacje Open Access i wzrostu liczby cytowań

Pierwsze badania dotyczące wpływu zielonego OA na artykuły opublikowane w czasopismach zostały przedstawione przez Stevana Harnada i Tima Brody w 2004 roku[8]. Postanowiono porównywać nie IF[9] czasopism OA i nie-OA, co ISI realizowało już wcześniej, lecz wskaźniki cytowań poszczególnych artykułów OA i nie-OA pojawiających się w tym samym czasopiśmie (nie-OA). W badaniach tych porównano ponad 95.000 preprintów z zakresu fizyki i matematyki, umieszczonych w repozytorium ArXiv z ostatecznymi wersjami artykułów zindeksowanymi przez Web of Science ISI/Thomsona; artykuły te nazwane zostały „Open Access”. Następnie wskaźniki cytowań tych artykułów porównano ze wskaźnikami dla wszystkich innych artykułów (nazwanych „nie-Open Access”), opublikowanych w tym samym czasopiśmie, w tym samym roku (uwzględniono lata 1992-2003), a na koniec utworzono stosunek obu tych wartości. Artykuły posiadające wersje preprintowe umieszczone w ArXiv http://arxiv.org/ miały wyższy wskaźnik cytowań niż te, które nie trafiły do repozytorium. Stosunek cytowań Open Access/nie-Open Access różni się ze względu na dziedzinę, rok publikacji, a także zależy od sposobu prowadzenia badań (np. od tego, czy uwzględniono samocytowania, czy porównywano artykuły z tych samych czasopism itp.). Badania wykazały, że w dziedzinie fizyki i matematyki artykuły OA otrzymują 2 do 3 razy wyższą liczbę cytowań niż artykuły, które nie były autoarchiwizowane. Autorzy stwierdzają, że efekt ten jest zmniejszany przez stosunkowo niewielki odsetek artykułów autoarchiwizowanych (10-20% w okresie, w którym prowadzono badania). Według opinii Michaela Kurtza, uzyskanej na podstawie badań przeprowadzanych w zakresie astrofizyki - dziedziny, w której osiągnięto już 100% OA dzięki repozytoriom instytucjonalnym, wykorzystanie artykułów podwoiło się w stosunku do okresu przed OA[10].

Ważnym metodologicznym elementem tych badań jest to, że zignorowana została potencjalna niejednorodność rozkładu cytowań w obrębie każdej grupy artykułów. W połączeniu z faktem, że tylko niewielka część artykułów posiada odpowiednią wersję preprintową w ArXiv oznacza to, że bardzo prawdopodobne są zniekształcenia wynikające z braku jednolitości próbek. Co więcej, przedstawianie zmian wskaźnika cytowań będącego ilorazem dwóch wartości może utrudniać ocenę efektu badań, gdyż w próbce zawierającej bardzo małą liczbę artykułów Open Access (licznik) i dużą nie-Open Access (mianownik) wielka zmiana ilorazu może być spowodowana niewielką zmianą liczby cytowań artykułów Open Access. Jest to efekt towarzyszący także innym badaniom różnych czynników, utrudniający odróżnienie wpływu badanych czynników od ogólnego „szumu tła” cytowań. Ponadto badane artykuły te mogły zostać opublikowane w dowolnej chwili w okresie 12 miesięcy, więc mogły być cytowane podczas bardzo różnych okresów, jednak ten czynnik został przez autorów ograniczony przez zwiększoną częstotliwość obliczeń.

Nowe podejście do badania korelacji pomiędzy dostępnością online pełnych tekstów artykułów (nie tylko zielonego OA) i wskaźnikami cytowań przedstawiła Kristin Antelman[11]. Stosując metodę naśladującą zachowania użytkowników podczas wyszukiwania informacji, ręcznie wyszukiwała online przypadkowo wybrane artykuły opublikowane w głównych czasopismach z czterech wybranych dziedzin (matematyka, elektryka i elektronika, nauki polityczne, filozofia), które mają reprezentować spektrum różnych zachowań w zakresie publikowania i cytowania w zależności od zwyczajów i tradycji danej dyscypliny. Badane artykuły opublikowane były w latach 2001 i 2002 (1999 i 2000 dla filozofii). Uwzględniono cytowania do 2003 r. (z wyłączeniem samocytowania i cytowań z tego samego zeszytu czasopisma, co cytowany artykuł), które tworzone były na podstawie Web of Science ISI/Thomsona. W Internecie poszukiwane były pełne teksty artykułów bezpłatnie dostępne online (ale nie na stronie Web wydawcy), które miały te same tytuły, jak wybrane artykuły drukowane. Wyszukane teksty uznawane były za OA; pozostałe zakwalifikowano jako nie-OA. Tylko w zakresie matematyki istniała znaczna liczba artykułów OA dostępnych poprzez repozytoria dziedzinowe, co stanowi tzw. zielony OA. W innych dyscyplinach teksty udostępniane były głównie poprzez umieszczanie na prywatnych stronach Web. Antelman obliczyła średni wskaźnik cytowań artykułów OA i nie-OA i wykazała, że procentowy stosunek średnich tych dwóch zbiorów różni się w zależności od dziedziny, od 45% dla filozofii, do 91% dla matematyki (co oznacza niemal 2 razy więcej cytowań w tej dziedzinie). Różnice te mogą mieć swoje źródło w odmiennych sposobach (zwyczajach) cytowania autorów i postaw wobec OA spotykanych w tak różnych dyscyplinach. Stosunek liczby artykułów OA do nie-OA różnił się w zależności od dyscypliny od 17% (filozofia) do 69% (matematyka).

Kristin Antelman uznała niewielki rozmiar próbek i niejednorodność rozkładu cytowań artykułów występujących w tym samym czasopiśmie za czynnik mylący i próbowała uwzględnić go podczas statystycznych analiz danych. Nie podała ona żadnych wytłumaczeń dla zaobserwowanych korelacji, poza założeniem, że dostępność online prowadzi do wzrostu wskaźnika cytowań.

W następnym roku przeprowadzone zostały badania z zastosowaniem podobnej metodologii[12]. Autorzy użyli robota do wyszukania (z użyciem metadanych opisowych typu autor, tytuł, czasopismo, itp.) ponad 1,3 mln. artykułów, opublikowanych w czasopismach indeksowanych przez ISI/Thomsona z dziesięciu wybranych dziedzin (biologia, psychologia, socjologia, medycyna, nauki polityczne, ekonomia, edukacja, prawo, organizacja i zarządzanie). Baza danych ISI służyła do uzyskiwania cytowań. Artykuły opublikowano pomiędzy 1992 i 2003 rokiem a cytowania, w tym samocytowania, gromadzono ze źródeł opublikowanych do końca tego okresu. Za OA uznawano pełne teksty artykułów dostępne online, mające ten sam tytuł i nazwę pierwszego autora co artykuł z czasopisma; pozostałe uznano za nie-OA. Wielkość stosunku OA/nie-OA zmieniała się w zależności od dyscypliny i roku publikacji od 25% do 250% pomimo, że artykuły OA stanowiły 5 do 15% wszystkich artykułów. Według autorów taka przewaga cytowań publikacji OA nie może wynikać wyłącznie ze zjawiska selekcji. Ponownie praktyka cytowań w poszczególnych dyscyplinach okazała się tak różnorodna, że uniemożliwiała uogólnienia dotyczące wszystkich dyscyplin.

Charakterystyki czasowe wskaźnika cytowań

Żadne z dotychczas przedstawionych badań nie uwzględniało bardzo ważnego czynnika zmian cytowań w czasie, czyli różnic czasowych pomiędzy momentem, gdy artykuł został udostępniony online i momentem, gdy został opublikowany. Jedynym zagadnieniem branym dotychczas pod uwagę było to, czy artykuł był, czy nie był powszechnie dostępny podczas realizacji badań. Dla umożliwienia poprawnego obliczenia efektów cytowań niezbędne jest także ścisłe zdefiniowanie datowania publikacji i zliczania cytowań artykułu, ze względu na to, że artykuły OA dostępne są 6-12 miesięcy przed tradycyjnym opublikowaniem, co powoduje również przesunięcie cytowań w czasie o podobny okres (rys. 1). W tym celu stosuje się tzw. stałe okna czasowe wskaźnika cytowań (okres, z którego pochodzą badane cytowania jest stały, a zmienia się natomiast rok lub lata wydania badanych publikacji), które są standardową metodą analizy bibliometrycznej stosowaną w celu uzyskania porównywalnych okresów czasowych dla cytowań do artykułów publikowanych w różnych latach lub w różnych okresach tego samego roku. W celu udowodnienia, że dostępność online ma sprawczy związek z późniejszymi cytowaniami, należy określić okres tej dostępności online, a następnie zbadać przebieg czasowy cytowań artykułów OA i nie-OA odpowiedni dla ich najwcześniejszej dostępności w którejkolwiek formie.

Rys. 1. Typowy rozkład czasowy cytowań (wg [4]).

Jedne z pierwszych badań, w których uwzględniono, że cytowania prac umieszczonych w repozytorium ArXiv jako preprinty funkcjonują wcześniej niż dla artykułów bez preprintów, przeprowadzono w 2004 roku[13]. Porównywane były cytowania do artykułów umieszczonych w repozytorium ArXiv z artykułami publikowanymi w czasopiśmie z dziedziny astrofizyki. Autorzy porównywali cytowania do artykułów z repozytorium w obrębie ograniczonych zasobów danych o cytowaniach Astrophysics Data System NASA do artykułów nieumieszczonych w repozytorium, a opublikowanych w czasopiśmie w latach 1999 do 2002. W tym ostatnim roku 72% artykułów z czasopisma umieszczonych zostało w repozytorium. Badanie wykazało, artykuły OA mają ponad dwa razy wyższy wskaźnik cytowań niż pozostałe (włączając w to samocytowania). Zastosowano stałe okno cytowań przez liczenie cytowań do artykułów opublikowanych w drugiej połowie 1999 roku do stałego punktu w 2003 roku. Późniejsze badania na większej liczbie czasopism potwierdziły te rezultaty.

W trakcie badań tworzono histogramy cytowań przedstawiające rozkład cytowań do artykułów posiadających i nieposiadających wersji preprintowej, co pozwoliło na stwierdzenie znacznych różnic w tych profilach. Artykuły posiadające preprinty były dostępne do cytowania średnio 12 miesięcy przed opublikowaniem ich w czasopiśmie, co oczywiście pozwalało na wcześniejsze rozpoczęcie cytowań. Zebrane dane sugerowały, że wcześniejsze rozpoczęcie cytowania nie wpływa na końcowy rozmiar cytowań związanych z artykułem w czasopiśmie. Niewielkie różnice mogą być interpretowane jako wynikające z wyborów dokonywanych przez autorów w zakresie miejsca, do którego przekazują tekst do publikacji. Badania dotyczące porównania artykułów umieszczanych w różnych repozytoriach (dziedzinowych i instytucjonalnych) i tych, które były tylko drukowane wskazują na znaczne różnice w cytowaniach w zależności od tego, do jakiego repozytorium przekazano tekst. Stwierdzono, że ci, którzy chcą zmaksymalizować widzialność swojego artykułu, powinni go przekazać do dużego repozytorium (a więc raczej nie do lokalnego repozytorium uczelnianego). Oprócz widzialności duże znaczenie ma czas oczekiwania na opublikowanie; w wielu dziedzinach naukowcy wolą uzyskać szybki dostęp do preprintu niż czekać miesiącami na wersję oficjalną artykułu.

Systematyczne badania efektu Open Access na cytowania

Wszystkie wcześniej przedstawione badania nastawione były na demonstrację różnic pomiędzy średnim wskaźnikiem cytowań do artykułów udostępnionych bezpłatnie online i dostępnych w inny sposób. Większość z tych badań wykazywało przyczynowe korelacje między tymi zjawiskami, jednak czasem część różnic i sposobów cytowań można wytłumaczyć wpływem selekcji dokonywanej przez autora lub redakcję, niektóre badania wykazały także różnice w okresach cytowań (citation life-time) tych dwóch grup. Problemem występującym w trakcie badań prowadzonych na materiale z przełomu wieków była także niewielka liczba artykułów dostępnych online. Liczba ta wciąż powiększa się szybciej niż ogólna liczba artykułów. Późniejsze badania stanowiły nową fazę w rozwoju publikacji na ten temat. Skupiały się one na systematycznej analizie kolejnych elementów wpływających na cytowania materiałów Open Access, które uznane zostało za zjawisko złożone i wielowarstwowe.

W 2005 roku pojawiły się badania analizujące możliwe wyjaśnienia obserwowanych różnic we wzorcach cytowań i systematycznie kontrolujące ich efekty poprzez zajmowanie się każdą z nich odrębnie i po kolei[14]. Badane były:

  • ogólny efekt OA spowodowany nieograniczonymi możliwościami czytania (wzrost dostępności) i cytowania artykułów (postulat OA);
  • postulat wcześniejszego dostępu (Early View), oznaczający wcześniejsze udostępnienie artykułów w wersji OA (od 6 do 12 miesięcy);
  • oraz wpływ wyboru tytułu czasopisma przez bardziej prominentnych autorów (np. posiadających wyższy stopień naukowy) i/lub autorów preferujących tytuły czasopism podczas wysyłania lepszych jakościowo prac (postulat selekcji).

Dla zbadania postulatów OA i wcześniejszego dostępu obliczone zostało prawdopodobieństwo cytowania w artykule innego artykułu wcześniej opublikowanego w zdefiniowanym oknie czasowym, w czasopismach z zakresu astrofizyki. Wyniki wskazują na to, że ogólnie brak jest efektu OA: gwałtowny wzrost dostępności online artykułów w repozytoriach dziedzinowych od lat 90. XX wieku nie spowodował żadnego późniejszego wzrostu cytowań tych artykułów. Paradoksalnie więc nawet silny wzrost dostępności nie pociągnął za sobą wzrostu liczby cytowań. Według autorów takie wyniki spowodowane są specyfiką dyscypliny (astrofizyki), w której naukowcy nie muszą poszukiwać publikacji w wersji elektronicznej. Wyniki sugerujące silny efekt wcześniejszego dostępu spowodowane były wzrostem prawdopodobieństwa cytowania artykułu w okresie sześciu miesięcy po jego opublikowaniu (bez względu na umieszczenie go w repozytorium).

Silny efekt selekcji został przedstawiony na podstawie obserwacji, według której artykuły posiadające wersje preprintowe wysłane do repozytorium mają większe prawdopodobieństwo trafienia do puli 200 najwyżej cytowanych artykułów. Późniejsze badania potwierdziły te wyniki.

Stosując te same trzy postulaty w 2007 roku przedstawiono wyniki badań artykułów opublikowanych w czterech czasopismach matematycznych pomiędzy 1997 i 2005 rokiem, posiadających lub nieposiadających swoje wersje w ArXiv[15]. Wykorzystując wskaźniki cytowań z bazy danych MathSciNet http://www.ams.org/mathscinet/ uzyskano dane o 35% wzroście cytowań artykułów, które były wysłane do ArXiv (wzrost o średnio 1,1 cytowania na artykuł). Postulat wcześniejszego dostępu był testowany przy pomocy analizy regresji wskaźników cytowań poszczególnych artykułów wysłanych do ArXiv i następnie opublikowanych w tym samym czasopiśmie w stosunku do liczby dni, które upłynęły między przekazaniem do repozytorium a publikacją w czasopiśmie. Nie uzyskano wyraźnej korelacji między wzrostem cytowań a wcześniejszym dostępem, wręcz przeciwnie, wiele często cytowanych artykułów zostało przekazanych do ArXiv dopiero po opublikowaniu w czasopiśmie. Być może przyczyną była wybrana dyscyplina (matematyka), w której praktyka cytowań powoduje, że średni wiek cytowanych źródeł jest stosunkowo wysoki, a częstotliwość i szybkość publikowania są stosunkowo niskie. Odwrotnie, artykuły, których wersja przekazana została do ArXiv z większym prawdopodobieństwem znajdowały się w grupie najczęściej cytowanych. Innym, dość oczywistym wynikiem badań było stwierdzenie spadku o 23% kopiowań ze strony Web wydawcy artykułów wcześniej umieszczonych w ArXiv.

Znaczenie Open Access dla poszczególnych autorów

W celu określenia wpływu złotego OA na cytowania podjęte zostały analizy artykułów opublikowanych w drugiej połowie 2004 r. w tym samym, hybrydowym i multidyscyplinarnym czasopiśmie[16]. Jako OA określone zostały artykuły, których koszt pokryty został przez autora (lub sponsora), pozostałe uznane zostały za nie-OA. W tym przypadku brak efektu wcześniejszego dostępu, gdyż wszystkie artykuły publikowane były natychmiast po zrecenzowaniu i pracach redakcyjnych.

Obie grupy artykułów były przedmiotem działań logicznych z wykorzystaniem takich zmiennych, jak autor, źródło funduszy, przedmiot i inne cechy. Stwierdzono, że status OA jest głównym wskaźnikiem prawdopodobieństwa cytowania artykułu co najmniej raz w ciągu 10-16 miesięcy po opublikowaniu. Artykuły OA są szybciej i częściej cytowane. Ponadto wykazano wyższość publikowania artykułu w czasopiśmie OA w stosunku do autoarchiwizacji (tzn. innych form OA). Badano także inne czynniki, takie jak liczba autorów artykułu oraz finansowanie z grantów, o które trzeba konkurować, z których każdy może być uznany za niezależny wskaźnik poziomu naukowego, a więc „jakości” artykułu. W różnych badaniach stwierdzano korelację pomiędzy źródłem finansowania badań a wskaźnikiem cytowań. Mając świadomość istnienia tego typu czynników niezbędne mogą być dalsze badania w celu określenia czy status OA pełni rzeczywiście główną rolę w cytowaniach. Ponadto pierwsi autorzy artykułów OA są na ogół starsi (przez co mają więcej publikacji), co podwyższa średnią cytowań na artykuł. Wszystko to sugeruje istnienie silnego wpływu ze strony czynnika selekcji. Dodatkowo badany był wpływ umieszczenia tekstu gdziekolwiek poza czasopismami OA. Analiza ta wskazuje, że dodatkowe udostępnienie online artykułów OA zwiększa szansę ich cytowania.

Prace tego typu wskazują na duże znaczenie charakterystyk autorów (reputacja, wcześniejsze cytowania, wskaźnik cyklu życia publikacji, kraj, źródło finansowania itp.), które są zmiennymi utrudniającymi poprawne analizy wpływu OA na cytowania. W badaniach prowadzonych przez Henka Moeda badano wskaźniki cytowań do artykułów w ArXiv oraz ostatecznej wersji drukowanej tych samych artykułów, po czym porównywano je z cytowaniami artykułów nieposiadających wersji OA publikowanymi w tych samych czasopismach[17]. Analiza 24 tytułów czasopism z zakresu fizyki potwierdziła, że artykuły posiadające wersję preprintową umieszczoną w repozytorium posiada wyższy współczynnik cytowań niż te, które nie mają wersji OA, a wielkość wzrostu zależy od roku i czasopisma (średnio o 80% w pierwszych trzech latach po opublikowaniu). Autor przeprowadził także analizy przyczyn zaobserwowanych różnic.

Były to pierwsze badania, w których zastosowano stałe okna czasowe do liczenia cytowań do każdego analizowanego artykułu, co ma zasadnicze znaczenie dla poprawnego porównywania artykułów opublikowanych w różnym czasie. Analizowany był efekt wcześniejszego dostępu przez wyznaczenie dwóch stałych okresów cytowań dla każdego analizowanego artykułu, którymi były albo pierwsze trzy lata po opublikowaniu, lub okres od czwartego do szóstego roku po opublikowaniu. Cytowania były natomiast zliczane w okresach comiesięcznych po opublikowaniu, co pozwalało na zdobycie cząstkowych informacji o liczbie cytowań. Pozwoliło to na zminimalizowanie efektu zróżnicowania częstotliwości ukazywania się czasopism. Obie metody pozwoliły na wykazanie działania efektu wcześniejszego dostępu, przy czym druga z nich przyniosła szczególnie uderzające wyniki: gdy miesięczne krzywe cytowań artykułów posiadających i nieposiadających wersji w ArXiv zostały umieszczone na tym samym wykresie, przesunięcie o sześć miesięcy krzywej dla artykułów w repozytorium (6-12 miesięcy to przeciętny czas pomiędzy umieszczeniem artykułu w repozytorium a opublikowaniem po recenzjach w czasopiśmie) dało dwie krzywe o niemal identycznym kształcie. Oznacza to, że wzorce cytowań publikacji OA i nie-OA nie różnią się, są tylko przesunięte w czasie. Badania pozwoliły także na wykazanie istnienia silnego wpływu efektu jakości, wyrażającego się znaczną nadreprezentacją prominentnych autorów dla artykułów umieszczonych w repozytorium. Zauważono także, że artykuły z proporcjonalnie większą ilością prominentnych autorów są chętniej cytowane niż te, które mają proporcjonalnie więcej autorów mniej prominentnych. Po uwzględnieniu tych efektów zniekształcających wyniki okazało się, że stosunek artykułów OA do nie-OA był zmienny, ale średnio wyniósł 29%.

Konkluzja z tych badań była taka, że ogólnie rzecz biorąc dla indywidualnych autorów główną korzyścią ze stosowania Open Access jest raczej przyśpieszenie cytowań, niż wzrost ich liczby. Podobnie jak we wszystkich poprzednich badaniach, wyniki te stosują się bezpośrednio jedynie do dyscypliny, dla której były wykonywane. Zazwyczaj nie można ich przenosić na inne dyscypliny ze względu na to, że zachowania związane z cytowaniem oraz stosunek autorów do OA są zróżnicowane i jako czynniki kulturowe różnią się w zależności od środowiska i społeczności.

Wnioski

Na początku referatu przedstawione zostały dwa zagadnienia, które starałem się przedstawić w jego treści:

  • problem ogólny, czyli pytanie o ewentualny wzrost cytowań publikacji udostępnianych w trybie OA,
  • punkt widzenia naukowców-autorów, zainteresowanych korzyściami, jakie uzyskają artykuły a tym samym ich autorzy, w postaci zwiększonej liczby cytowań, dzięki stosowaniu OA.

Te dwa zagadnienia wyznaczały jednocześnie kolejność i sposoby prowadzenia badań i tworzenia publikacji na temat bibliometrycznych analiz cytowań. Pierwsze prace skupiały się po prostu na poszukiwaniu pozytywnej korelacji pomiędzy Open Access i liczbą cytowań. W nowszych publikacjach rozpoczęto metodyczne badanie czynników mających wpływ na obserwowane korelacje i odkrywanie wpływu ich znaczenia dla indywidualnych autorów wykorzystujących zielony lub złoty model OA.

Te problemy badawcze i próby ich rozwiązywania powodowały rozwój coraz bardziej przydatnych metod badawczych, uwzględniających wzrastającą liczbę czynników zniekształcających wyniki badań. Analiza cytowań nie jest łatwym przedsięwzięciem badawczym, choćby z powodu wymogów technicznych służących manipulacji i analizie danych. Poza tym wymaga ona zrozumienia podstawowych czynników związanych z cytowaniami w publikacjach naukowych. We wszystkich przedstawionych badaniach, oprócz jednego, popełniono błąd polegający na braku dokładnego określenia daty najwcześniejszego rozpowszechnienia każdego artykułu, w związku z czym niemożliwe było utworzenie zdefiniowanego okna cytowań, niezbędnego do uzyskania poprawnych wyników analizy cytowań publikacji Open Access. Nawet najbardziej wymyślne metody dotąd wykorzystywane nie są przydatne do wykazania przyczynowości w sposób jednoznaczny, nie mogą także pomóc w uogólnieniu zaobserwowanych zjawisk na poziomie autora lub dużej liczby zróżnicowanych dyscyplin.

Zaobserwowana podczas badań pozytywna korelacja pomiędzy statusem OA danego artykułu a wyższą liczbą cytowań powinna być interpretowana jako przyczynowa (nieprzypadkowa), co zgodne jest z intuicyjną interpretacją tego zjawiska. Jednak dokładniejsze analizy oprócz przyczynowych korelacji między OA i cytowaniami odkryły wiele różnych czynników i uczestników wpływających na sposób przebiegu badanych zjawisk. Oprócz miar związanych bezpośrednio z cytowaniami należy więc stosować także inne miary i czynniki, dotychczas jeszcze niedostatecznie przebadane[18]. Taką miarą jest na przykład liczba lat, przez które naukowiec zajmuje się publikowaniem; wysokie cytowania w późniejszym czasie rozwoju kariery wydają się być czymś oczekiwanym (choć zależy to także od dyscypliny). Oprócz miary średniej liczby cytowań dla czasopisma (Impact Factor) stosować należy takie miary dla poszczególnych artykułów, jak sumę cytowań, średnią cytowań w roku, najwyższy wskaźnik cytowań. Jednak nie wszystkie cytowania są takie same. Przez analogię do algorytmu Page Rank stosowanego w Google, również cytowania mogą być ważone w zależności od tego, jak bardzo cytowany jest artykuł lub autor cytujący. Również współcytowania niosą ważne informacje; być współcytowanym z laureatem Nagrody Nobla ma być może większe znaczenie niż współcytowanie ze studentem. Prostym wskaźnikiem mogą być także ilości kopiowań (downloads) tekstów. Podobnie obliczane mogą być współczynniki współautorstwa, mające znaczenie zarówno pozytywne, jak i negatywne, jeśli generują zbędne samocytowania.

Koncepcja ogólnego i szeroko rozpowszechnionego efektu Open Access wymaga od nas wyobrażenia sobie sytuacji, w której autorzy cytują daną publikację, ponieważ jest ona Open Access lub zaniechają cytowania relewantnego artykułu, ponieważ nie mogą go przeczytać (oraz zacytować) ze względu na to, że nie jest on Open Access. Zapoznanie się z historią cytowań najważniejszych prac sugeruje, że najpoważniejszą determinantą liczby i czasu cytowań jest jakość artykułu, jego ważność i relewancja prac opisanych w artykule.

Uczestnicy OA uzyskują wiele korzyści, które wzrosłyby znacznie w przypadku, gdyby OA sięgało 100% publikacji. W obecnej sytuacji, gdy sięga ono 15%, najważniejsza wydaje się możliwość uzyskania korzyści wynikających z podwyższonej konkurencyjności. Jak podaje Tim Brody z kolegami, w University of Southampton, dzięki temu, że bardzo wcześnie przyjęto obowiązek autoarchiwizacji publikacji naukowych przez ich autorów, szybko uzyskano bardzo wysokie miejsce w tzw. rankingu G, określającym miejsce uczelni na podstawie liczby odnośników do jej stron Web ze stron Web innych uczelni, uważanych za wiodące w skali międzynarodowej, co można uznać za rodzaj cytowania[19].

Korzyści z OA są przedstawiane przez Stevana Harnada jako:

  • korzyść z wcześniejszego udostępniania: autoarchiwizacja preprintów przed ich formalnym opublikowaniem zwiększa liczbę cytowań (co prawda w różnym stopniu, jak wynika z przedstawionych wyników badań);
  • korzyść z wyższej jakości: autoarchiwizacja postprintów po opublikowaniu również zwiększa liczbę cytowań (artykuły wysokiej jakości zyskują więcej), możliwa jest konkurencja między artykułami wysokiej jakości niezakłócona ograniczeniami dostępu;
  • korzyść z wyższego wykorzystania: autoarchiwizacja zwiększa liczbę kopiowań (downloads) nawet trzykrotnie;
  • korzyść z konkurencyjności, o której była mowa wcześniej; znika ona w przypadku 100% OA (gdy całość zasobów naukowych dostępnych jest w trybie OA);
  • wpływ jakościowy: artykuły o wyższej jakości są poprzez naturalną selekcję (zwykle wykonywaną przez autora) autoarchiwizowane częściej; znika on w przypadku 100% OA[20].

Naukowcom obecnie radzi się, jeśli chcą, żeby ich prace były zauważone przez kolegów, wykorzystywane i w końcu cytowane, aby starali się rozpowszechnić swoje publikacje na wszelkie możliwe sposoby i na jak największej ilości platform, publikowali w Open Access i czasopismach o wysokim IF, wysyłali teksty do instytucjonalnych i dziedzinowych repozytoriów oraz udostępniali je na własnych stronach Web. Publikowanie artykułu w czasopiśmie jest obecnie tylko pierwszym krokiem w rozpowszechnianiu pracy i komunikowaniu naukowym. Niezbędne jest korzystanie z nowych możliwości technologicznych Webu, który dostarcza wiele metod i narzędzi służących upublicznieniu wiedzy naukowej.

Przypisy :

[1] Stanowisko IFLA w sprawie Open Access. In Biuletyn EBIB [on-line]. 2005 nr 2 (63) [dostęp 20 sierpnia 2007]. Dostępny w World Wide Web: http://ebib.oss.wroc.pl/2005/63/ifla.php. ISSN 1507-7187.

[2] Więcej na temat produktów i historii ISI/Thomson, zob. JANKOWSKA, E. Od Instytutu Filadelfijskiego do Thomson Scientific. Bibliotekarz 2007, nr 3, s. 15-17.

[3] NOWAK, P. Bibliometria. Webometria. Podstawy. Wybrane zastosowania. Poznań: Wydaw. Naukowe UAM, 2006, s. 39. ISBN 83-232-1701-7.

[4] CRAIG, I. et al. Do open access articles have greater citation impact? A critical review of the literature. Journal of Informetrics 2007, Vol. 1, nr 3, s. 239-248.

[5] MOED, H. Citation analysis in research evaluation. Dordrecht: Springer Verl., 2005. ISBN 1402037139.

[6] LAWRENCE, S. Online or invisible? Nature 2001, Vol. 411, nr 6837, s. 521.

[7] ANDERSON, K. et al. Publishing online-only peer-reviewed biomedical literature: three years of citation, author perception, and usage experience. In Journal of Electronic Publishing [on-line]. 2001 Vol. 6 nr 3 [dostęp 21 sierpnia 2007]. Dostępny w World Wide Web: http://www.press.umich.edu/jep/06-03/anderson.html. ISSN 1080-2711.

[8] HARNAD, S., BRODY, T. Comparing the impact of open access (OA) vs. non-OA articles in the same journals. In D-Lib Magazine [on-line]. 2004 Vol. 10 nr 6 [dostęp 22 sierpnia 2007]. Dostępny w World Wide Web: http://www.dlib.org/dlib/june04/harnad/06harnad.html. ISSN1082-9873.

[9] IF – Impact Factor (wskaźnik oddziaływania) to stosunek liczby cytowań artykułów z danego czasopisma do liczby wszystkich artykułów opublikowanych w tym czasopiśmie w okresie dwóch lat.

[10] KURTZ, M. Restrictive access policies cut readership of electronic research journal articles by a factor of two [on-line]. 2004 [dostęp 21 sierpnia 2007]. Dostępny w World Wide Web: http://opcit.eprints.org/feb19oa/kurtz.pdf.

[11] ANTELMAN, K. Do open-access articles have a greater research impact? College & Research Libraries 2004, Vol. 65, s. 372-382.

[12] HAJJEM, C., HARNAD, S., GINGRAS, Y. Ten-year cross-disciplinary comparison of the growth of open access and how it increases research citation impact. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 2005, Vol. 28, s. 39-47.

[13] SCHWARZ, G., KENNICUTT, R. Demographic and citation trends in astrophysical journal papers and preprints. Bulletin of the American Astronomical Society 2004, Vol. 36, s. 1654-1663.

[14] KURTZ, M. et al. The effect of use and access on citations. Information Processing and Management 2005, Vol. 41, s. 1395-1402.

[15] DAVIS, P., FROMERTH, M. Does the arXiv lead to higher citation and reduced publisher downloads for mathematics articles? Scientometrics 2007, Vol. 71, nr 2, s. 203-215.

[16] EYSENBACH, G. Citation advantage of open access articles. PLoS Biology 2006, Vol. 4, nr 5, s. 692-698.

[17] MOED, H. The effect of “open access” upon citation impact: an analysis of ArXiv’s condensed matter section [on-line]. 2006 [dostęp 22 sierpnia 2007]. Dostępny w World Wide Web: http://arxiv.org/abs/cs.DL/0611060.

[18] BRODY, T. et al. Incentivizing the open access research web: publication-archiving, data-archiving and scientometrics. CTWatch Quarterly 2007, Vol. 3, nr 3, s. 47.

[19] Tamże, s. 50.

[20] HARNAD, S. OA Impact Advantage = EA + (AA) + (QB) + QA + (CA) + UA [on-line]. 2005 [dostęp 22 sierpnia 2007]. Dostęp w World Wide Web: http://eprints.ecs.soton.ac.uk/12085/01/OAA.html.

            

Poprzedni - Spis treści - Następny

(C) 2007 EBIB

            Wpływ Open Access na poziom cytowań publikacji / Marek Nahotko // W: IV Ogólnopolska Konferencja EBIB Internet w bibliotekach Open Access. Toruń, 7-8 grudnia 2007 roku. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich, K[omisja] W[ydawnictw] E[lektronicznych], Redakcja "Elektronicznej Biblioteki", 2007. - (EBIB Materiały konferencyjne nr 18). - ISBN 83-921757-6-X. -Tryb dostępu : http://www.ebib.info/publikacje/matkonf/mat18/nahotko.php