ebib 
Nr 1/2009 (101), Wolna kultura i edukacja. Artykuł
 poprzedni artykuł następny artykuł   

 


Stanisław Żurek
Wolfson Centre for Magnetics, Cardiff University, Wielka Brytania

Sebastian Skolik
Zakład Socjologii i Psychologii Zarządzania, Politechnika Częstochowska

Pochwała amatora. Rozwój polskiej Wikipedii w latach 2004-2008 na tle profesjonalnej encyklopedii PWN


Wstęp

Andrew Kenn w swojej do tej pory chyba najbardziej znanej pozycji Kult amatora. Jak internet niszczy kulturę[1] zawarł tezę, że tworzone społecznie, a więc bez wynagrodzenia, amatorsko projekty właśnie ze względu na to, że są amatorskie, nie będą mogły nigdy dorównać ich komercyjnym odpowiednikom, wydawanym przez profesjonalistów. Nie wchodząc w spór z tym autorem, chcielibyśmy jedynie zaznaczyć, że profesjonalne wydawnictwa, tworzące swe dzieła dla szerszych mas, pojawiły się dość późno w historii ludzkości, a nauka z kolei zna wiele przypadków geniuszy – samouków, którzy dokonywali ważnych odkryć mimo braku profesjonalnego wykształcenia. Nasze zainteresowania skierowane zostały w tym artykule jednak nie tyle na ocenę samego działania charakterystycznego dla serwisów typu Web 2.0 (współtworzonych przez użytkowników), co na porównanie polskojęzycznej Wikipedii z 30-tomową encyklopedią PWN i zarysowanie metodologii pozwalającej na przynajmniej techniczną ocenę ilości i jakości treści w obu dziełach.

Chociaż spoglądając na działania masowe w Internecie, które określić można mianem prosumpcji[2], czyli produkowania (tu przede wszystkim informacji) bez wyraźnego podziału na producentów i konsumentów, można zauważyć wiele przejawów niezbyt ambitnych projektów, to jednak w społecznościach, które mają wyraźnie określone normy i wartości, wewnętrzni eksperci są szczególnie cenieni. Użytkownicy nie stają się jednak nimi dzięki zweryfikowaniu ich formalnego wykształcenia, a dzięki wkładowi, jaki wnieśli do projektu. Wikipedia czy inne projekty Fundacji Wikimedia nie są tutaj pierwszymi, wcześniej na podobnych zasadach działały m.in. grupy dyskusyjne[3]. Ów nacisk na wewnętrznych ekspertów, nawet w społecznościach, w których istnieją tendencje do formalnego zrównywania statusów i niewyróżniania elit, powoduje, że niektóre jednostki stają się szczególnie cenne ze względu na umiejętności techniczne, zasoby wiedzy czy umiejętności organizacji pracy. Ale również sam projekt nabiera z czasem wartości na tyle, że może być porównywany z profesjonalnymi wydawnictwami. Do tej pory do papierowych encyklopedii porównywano wersje: anglojęzyczną (w roku 2005[4]) i niemiecką (w roku 2007[5]) Wikipedii, które to niespodziewanie okazały się być konkurencyjne dla swych tradycyjnych odpowiedników. W obu przypadkach artykuły analizowało grono zewnętrznych ekspertów, między innymi pod względem istnienia w nich błędów merytorycznych. Naszą ambicją była nie tyle ocena merytoryczna, ile techniczna (objętość, podana bibliografia, ewidentne błędy, jeśli takie udało się nam znaleźć). Motywacją do podjęcia tych badań nie było też sprawdzenie, czy Wikipedia może być dziełem konkurencyjnym wobec tradycyjnej encyklopedii, ponieważ jak zauważyła to Joanna Wrycza, Wikipedia jest pewnym szczególnym rozwinięciem cechy gatunkowej tradycyjnej encyklopedii, która w swym założeniu ma być dziełem zbiorowym[6], co oznacza, że różnicą jest tu jedynie metoda budowania obu typów encyklopedii.

Polska wersja Wikipedii – Wolnej Encyklopedii została założona we wrześniu 2001 r. Wikipedia jest niekomercyjnym przedsięwzięciem tworzonym wyłącznie przez wolontariuszy. Słowo „wolna” w nazwie ma tu podwójną konotację. Dostęp do Wikipedii jest darmowy, nie jest wymagana rejestracja użytkowników (czytelników), a wszelkie informacje przedstawiane są w sposób czytelny i przejrzysty. Przede wszystkim jednak „wolność” oznacza, że wszelkie materiały umieszczone w Wikipedii (teksty, grafiki, animacje, dźwięki itd.) muszą zostać udostępnione na wolnych licencjach, które zezwalają na ich dalsze kopiowanie i wykorzystywanie w dowolnym celu, również komercyjnym. Podstawową licencją dla Wikipedii jest GNU Free Documentation License (GFDL) zezwalająca na wolny użytek, jednak pod warunkiem spełniania określonych warunków[7], z których najważniejsze to: podanie informacji o pierwotnym autorze oraz tekstu licencji. Wiele fotografii jest zamieszczonych na zasadach bardziej swobodnych licencji, niewymagających podania pełnego tekstu licencji (licencja Creative Commons).

Ponieważ naszym zamiarem było dokonanie porównania polskiej Wikipedii z papierowym odpowiednikiem, zdecydowaliśmy się na wybór najobszerniej opracowanej Wielkiej encyklopedii PWN[8]. Zawiera ona ponad 140 tysięcy haseł, 15 tysięcy ilustracji, 700 map oraz innych dodatków. Wikipedia aspiruje do miana wiarygodnej encyklopedii i jest bezsprzecznie największą darmową encyklopedią internetową. W chwili pisania tych słów polska Wikipedia miała ponad 540 tysięcy haseł. Coraz częściej można spotkać opinie dotyczące jej użyteczności oraz konkurencyjności względem komercyjnej, a więc „nie-wolnej” encyklopedii PWN. W artykule zawarto próbę oceny rozwoju polskiej Wikipedii w latach 2004-2008 wraz z propozycją metody pomiaru niektórych wskaźników. Pozwoliło to na odniesienie się do kwestii przydatności artykułów z Wikipedii i ich porównanie do podobnych artykułów w encyklopedii PWN w czysto technicznym sensie.

Część I – porównanie Wikipedii i encyklopedii PWN

Metodologia

Jak wspomniano powyżej, Wikipedia ma ponad 540 tys. artykułów, encyklopedia PWN – 140 tys. W Wikipedii istnieją więc artykuły, których nie ma w encyklopedii PWN, ale też część artykułów z tejże encyklopedii nie jest jeszcze umieszczona w Wikipedii. Encyklopedia PWN jest tworzona przez 3000 specjalistów z różnych dziedzin, a lista zawartości jest dokładnie zaprojektowana przed napisaniem samych artykułów. Wobec tego można założyć, że w trzydziestotomowej bazie danych znajdą się najistotniejsze informacje, które mogą zainteresować przeciętnego czytelnika. Jest więc bezspornym faktem, że encyklopedia PWN może być tutaj uznana jako absolutny punkt odniesienia. Dlatego też postanowiliśmy użyć artykuły istniejące w encyklopedii PWN jako wstępną listę artykułów, które powinna posiadać Wikipedia i których jakość powinna być na odpowiednim poziomie.

Właściciele PWN udostępnili fragmenty encyklopedii w liczbie około czterech stron z każdego tomu. Pliki te były dostępne w formacie PDF pod adresem http://we.pwn.pl[9]. Nie jest to więc badanie oparte na próbie losowej, ponieważ autorom niniejszego opracowania nie jest znany algorytm, jakiego użyto do selekcji udostępnionych artykułów z encyklopedii PWN. Ze stron dostępnych dla tomów od 1 do 30 wybrano jak najpełniejsze artykuły, które mogły posłużyć jako podstawa analizy. Przy selekcji i „pomiarze” artykułów z encyklopedii PWN kierowano się następującymi zasadami:

  1. W analizie wykorzystano przede wszystkim pełne artykuły.
  2. Haseł będących odsyłaczami do innych haseł (tzn. niezawierających nawet kilku słów treści) nie użyto w analizie.
  3. Artykuły niepełne zostały użyte tylko wówczas, gdy ich jakość lub długość była co najmniej porównywalna z odpowiadającymi im artykułami w Wikipedii.
  4. Liczbę słów w artykule z encyklopedii PWN liczono jako średnio 8 słów na linijkę, 71 linijek na całą kolumnę. Jeśli artykuł był dłuższy niż jedna kolumna, to liczbę słów liczono podsumowując: 8 x 71 x liczba kolumn, nawet jeśli artykuł zawierał fotografie lub grafiki. Było to podyktowane zamkniętym formatem PDF dostępnych plików, który nie pozwala na kopiowanie tekstu i automatyczne zliczanie wyrazów. Jako „wyraz” zaliczono dowolny ciąg znaków oddzielony spacją, wliczając jednoliterowe spójniki, daty itd.
  5. Do tekstu wliczano bibliografię i przypisy.
  6. Liczbę obliczonych słów zaokrąglano zawsze w górę do pełnej dziesiątki (czyli np. 41 lub 49 słów = 50). Wyjątkiem były niektóre artykuły o długości poniżej 20 słów, gdzie podano wartość rzeczywistą. Liczba słów miała na celu tylko orientacyjne zobrazowanie długości artykułu, a nie wartość absolutną.
  7. Jeśli artykuł był potencjalnie dużo dłuższy niż dostępny fragment (np. artykuł o państwie Niemcy), to był on również wykorzystany. Hasła takie są przeważnie dłuższe niż dwie udostępnione strony. Liczbę słów oszacowano tylko na podstawie dostępnego tekstu, czyli 8 słów x 71 linijki x 2 kolumny x 2 strony = 2272, czyli 2280 słów (nawet jeśli dostępny fragment zawierał fotografie). Takie podejście zostało podyktowane założeniem, aby statystyki mogły odzwierciedlać również bardzo długie artykuły.

W ten sposób wyselekcjonowano i zmierzono 321 artykułów z encyklopedii PWN. Wyniki pomiaru zapisano w bazie danych. Następnie odszukano w Wikipedii odpowiedniki wszystkich haseł PWN i wykonano ich pomiary z uwzględnieniem zasad podobnych jak powyższe.

Różnice były następujące:

  1. Do analizy użyto całego tekstu artykułu wyświetlonego dla użytkownika, ale bez słów technicznych (typu kategorie, przekierowania itd.).
  2. Liczono rzeczywistą liczbę słów (ciągi znaków oddzielone spacjami, jednoliterowe spójniki, daty itd.), a wyliczoną wartość zaokrąglano w górę do pełnej dziesiątki.

Podczas porównywania artykułów Wikipedii do tych z encyklopedii PWN autorzy niniejszego artykułu dokonali także oceny ogólnej według opisanych poniżej zasad. Ocena ta była szacowana na podstawie ilości informacji przedstawionych w artykule – długość samego artykułu nie miała większego znaczenia, liczyła się tylko ilość podanych faktów (np. nazwiska, daty, nazwy miejscowości, opisy wydarzeń). Dlatego też zdarzały się sytuacje, w których artykuł Wikipedii otrzymywał niższą ocenę od artykułu z encyklopedii PWN, pomimo że ten drugi miał liczbę słów mniejszą nawet o połowę.

W ocenie brano pod uwagę ilość i szczegółowość przedstawionych informacji. Autorzy, zdając sobie sprawę ze swoich merytorycznych ograniczeń, nie byli w stanie analizować nieprawdziwych lub błędnych informacji, poza bardzo nielicznymi i oczywistymi wyjątkami (zarówno w Wikipedii, jak i encyklopedii PWN). Wszystkie artykuły Wikipedii zostały poddane ocenie w porównaniu do odpowiednich artykułów encyklopedii PWN zgodnie ze skalą ocen przedstawioną w tabeli 1.

Tab. 1. Kryteria ocen porównujących artykuły Wikipedii do artykułów z encyklopedii PWN

Kryterium Ocena
Brak artykułu z encyklopedii PWN w Wikipedii -3
Artykuł w PWN jest dużo lepszy -2
Artykuł w PWN jest nieznacznie lepszy -1
Artykuły są porównywalne 0
Artykuł w Wikipedii jest nieznacznie lepszy +1
Artykuł w Wikipedii jest dużo lepszy +2

Wyniki badań

Zaprezentowane poniżej wyniki odnoszą się do wartości uśrednionych dla wszystkich zbadanych artykułów, chyba że zaznaczono inaczej. W przypadku Wikipedii wykorzystano tylko istniejące artykuły, ponieważ celem było zbadanie średniej liczby słów na artykuł. Gdyby dla każdego nieistniejącego artykułu przypisać zerową liczbę słów, to zafałszowałoby to obraz obecnego stanu artykułów. Pozostałe wyniki i sposób ich obliczenia zostały opisane poniżej wraz z podaniem wykresów lub danych liczbowych.

Liczba artykułów

Jak podano powyżej, wybrano określoną liczbę artykułów z encyklopedii PWN – wyniosła ona 321 artykułów ze wszystkich 30 tomów. Każde z haseł zostało sprawdzone w Wikipedii – w dniu 2 października 2008 r. istniało z nich tylko 230 artykułów (rys. 1), co daje około 72%. W konsekwencji 91 artykułów Wikipedii otrzymało notę -3, co zaowocowało znacznym obniżeniem całkowitej średniej oceny Wikipedii w porównaniu do encyklopedii PWN. Z tego powodu zastosowano również skorygowaną ocenę, w której w analizie wzięto pod uwagę tylko artykuły istniejące w obydwu encyklopediach. Takie badanie bowiem umożliwia porównanie szeroko rozumianej „wizualnej” czy też „laickiej” jakości samych artykułów i nie jest zafałszowane skrajnymi notami dla nieistniejących haseł. Szczegółowe wyniki zostaną podane poniżej.

[Rozmiar: 31790 bajtów]
Rys. 1. Porównanie liczby artykułów z encyklopedii PWN (100%) istniejących w Wikipedii (72%)

Liczba słów

Długość artykułów Wikipedii została zmierzona poprzez skopiowanie istotnego tekstu artykułu (z pominięciem szablonów specjalnych, spisu treści itd.) i wklejenie go do edytora Microsoft Word, który pozwala na zliczanie liczby słów w danym tekście. „Słowo” jest tutaj definiowane jako ciąg znaków oddzielony spacjami (lub znakami interpunkcyjnymi). Metoda ta nie mogła być użyta do artykułów z encyklopedii PWN, ponieważ użyto zabezpieczonego formatu plików PDF, który nie pozwalał na kopiowanie tekstu. Liczba słów dla haseł zawartych w encyklopedii PWN została więc oszacowana na podstawie liczby linijek tekstu (8 słów na linijkę, 71 linijek na kolumnę).

Porównanie liczby słów dla wszystkich artykułów przedstawiono na rys. 2. Kolejność artykułów jest posortowana względem ich wielkości w encyklopedii PWN – od najdłuższych do najkrótszych. Liczba słów w artykułach Wikipedii jest podobna do liczby słów w artykułach encyklopedii PWN (zastosowano pionową oś w skali logarytmicznej celem lepszego zobrazowania różnic w całym przedziale wartości). Niemniej jednak widać wyraźnie, że liczba słów w artykule Wikipedii może być zarówno o wiele mniejsza, jak i o wiele większa dla odpowiadającego artykułu z encyklopedii PWN. Sugeruje to bardzo nierówny poziom artykułów Wikipedii. Skoro jednak istnieje spora liczba artykułów Wikipedii znacznie dłuższych niż ich odpowiedniki w encyklopedii PWN, to jest wielce prawdopodobne, że zawierają one więcej informacji przydatnych dla czytelnika.

[Rozmiar: 31790 bajtów]
Rys. 2. Porównanie całkowitej liczby słów we wszystkich artykułach

Jeśli zaś chodzi o liczbę słów w artykułach, to statystyczne rozkłady przedstawiają się podobnie dla obydwu encyklopedii (pod uwagę wzięto tylko hasła istniejące w obydwu encyklopediach). Liczbę słów w artykułach posortowano od wartości największych do najmniejszych oddzielnie dla każdej encyklopedii, co spowodowało zerwanie bezpośredniego połączenia między wynikami przedstawionymi na rys. 2.

Najdłuższym analizowanych artykułem z encyklopedii PWN jest „Polska”; zajmuje on co najmniej 24 strony i szacunkowo liczy ponad 27 270 słów (8 słów, 71 linijek, 2 kolumny, 24 strony). Kolejne artykuły były krótsze – ale dłuższe niż dwie strony, dlatego też liczba słów dla nich została oszacowana na 2280. Takich haseł odnotowano 13, co spowodowało wystąpienie płaskiej części wykresu zaznaczonego kółkiem na rys. 3. Z ogólnego trendu widać jednak wyraźnie, że charakterystyka powinna rosnąć w kierunku dużo wyższych wartości. Jednym z najkrótszych artykułów w encyklopedii PWN był artykuł „erotyk” składający się tylko z siedmiu słów. W tej encyklopedii odnotowano łącznie 14 artykułów nie dłuższych niż 30 słów.

[Rozmiar: 31790 bajtów]
Rys. 3. Porównanie całkowitej liczby słów tylko dla artykułów istniejących w Wikipedii i PWN

Specyfika długich artykułów w Wikipedii jest nieco inna. Główny artykuł „Polska” zawierał 13 630 słów[10], ale w treść wplecionych jest bardzo wiele skrótów (linków) do podrzędnych artykułów opisujących określone zagadnienia, jak np. „gospodarka Polski”[11], które w encyklopedii PWN są wpisane w głównym artykule. Rzetelnie opisane hasła podrzędne Wikipedii często są bardzo rozbudowane i mogą zawierać nawet ponad 1000 słów (1960 słów w przypadku hasła „gospodarka Polski”). Bezpośrednie porównanie nie jest więc tutaj możliwe, ale dla celów niniejszej oceny wzięto pod uwagę tylko liczbę słów pojawiającą się w głównych artykułach. Taka metoda jest więc trochę niekorzystna dla haseł Wikipedii, ale pozwala na większą powtarzalność pomiaru dla różnych artykułów.

Średnia długość artykułu w encyklopedii PWN wynosi 420 słów, w Wikipedii – 585 (rys. 4).

[Rozmiar: 31790 bajtów]
Rys. 4. Średnia liczba słów na artykuł w Wikipedii i encyklopedii PWN

Oceny

Każdy artykuł Wikipedii (istniejący lub nie) otrzymał odpowiednią ocenę zgodnie z zasadami opisanymi powyżej. Procentowy udział każdej z tych ocen w całkowitej liczbie artykułów przedstawiono na rys. 5. Jak wspomniano, powyżej 28% artykułów (91 haseł) automatycznie otrzymało notę -3. Z poniższego wykresu wynika, że tylko 16% (51 haseł) artykułów Wikipedii było dużo uboższych niż ich odpowiedniki w encyklopedii PWN. Pozostałe 56% (179 haseł) artykułów było albo tylko nieznacznie uboższych, albo porównywalnych, albo też wizualnie lepszych niż odpowiadające im artykuły w encyklopedii PWN. Ponieważ więcej niż połowa artykułów Wikipedii jest „niegorsza” niż w encyklopedii PWN, to oczywiście średnia ocena ogólna będzie odzwierciedlać tą sytuację.

[Rozmiar: 31790 bajtów]
Rys. 5. Procentowy udział liczby każdej z ocen w całkowitej liczbie artykułów

Ocena ogólna i ocena skorygowana

Średnia ocena ogólna została wyliczona jako wartość średnia ze wszystkich 321 ocen (z uwzględnieniem not -3 za nieistniejące artykuły). Jak to przedstawiono na rys. 6, średnia ocena ogólna z porównania Wikipedii do encyklopedii PWN była ujemna i wyniosła -0,89. Taki wynik oznacza, że dla przeciętnego czytelnika – laika średnia zawartość informacji zaprezentowanych we wszystkich hasłach Wikipedii jest tylko nieznacznie uboższa niż tych dostępnych w encyklopedii PWN, ponieważ wartość -0,89 jest większa niż -1, czyli ocena oznaczająca, że „artykuł PWN jest nieznacznie lepszy”.

Taka ocena nie jest jednak do końca miarodajna, ponieważ wliczone są tutaj nieistniejące artykuły, dla których noty mocno ujemne zakłamują szacowaną „jakość wizualną” dla artykułów istniejących. Dlatego też wprowadzono dodatkowy współczynnik nazwany skorygowaną oceną ogólną, która jest obliczona tylko dla istniejących artykułów. W takim przypadku najniższa możliwa ocena w puli to -2, przy całkowitej liczbie analizowanych artykułów 291 (tylko hasła istniejące). Dla tak obliczonego współczynnika skorygowana ocena ogólna osiągnęła znikomą wartość -0,06. Oznacza to, że potencjalnie istniejąca zawartość Wikipedii dla przeciętnego czytelnika – laika może być równoważna encyklopedii PWN w zakresie przydatności, objętości i ilości zawartych informacji.

[Rozmiar: 31790 bajtów]
Rys. 6. Ocena ogólna i skorygowana (opis w tekście) porównania Wikipedii względem encyklopedii PWN

Zawartość bazy danych Wikipedii jest indeksowana przez wyszukiwarki internetowe, jak również przez wewnętrzną wyszukiwarkę Wikipedii, odszukanie więc odpowiedniego hasła zajmuje kilka sekund (zakładając dostępność do Internetu dla danej osoby). W przypadku drukowanej trzydziestotomowej encyklopedii PWN odszukanie odpowiedniego tomu, a potem odpowiedniego hasła zajmie na pewno więcej czasu (zakładając dostęp do trzydziestu tomów publikacji o łącznej cenie rzędu średniej pensji krajowej brutto). Wikipedia z racji darmowego dostępu jest wobec tego bardziej przydatna dla przeciętnego użytkownika. Co więcej, nie ulega wątpliwości, że Wikipedia podlega ciągłemu rozwojowi, co zostanie wykazane poniżej.Podobne badanie za kilkanaście miesięcy z pewnością wykazałoby, że średnia ocena ogólna zbliży się jeszcze bardziej do granicy zerowej, a średnia ocena skorygowana na pewno osiągnie wartości dodatnie, co będzie nieuchronnie oznaczać większą użyteczność artykułów istniejących w Wikipedii niż ich odpowiedników w encyklopedii PWN.

Korelacja między oceną a liczbą słów

Im dłuższy artykuł Wikipedii, tym więcej zawiera informacji i tym większa jest szansa na wyższą ocenę. Jak jednak pokazano powyżej, długość artykułów w internetowej encyklopedii jest bardzo nierówna (rys. 2), co rzutuje na rozkład ocen względem użytego punktu odniesienia, czyli objętości artykułów w encyklopedii PWN (rys. 7).

[Rozmiar: 31790 bajtów]
Rys. 7. Rozkład ocen względem długości artykułów PWN (opis w tekście)

Na rys. 7 można wyodrębnić cztery grupy rozkładu ocen:

  • Prostokąt – pokazuje nieistniejące artykuły, które otrzymały notę -3. Jest rzeczą godną uwagi, że niemal wszystkie brakujące artykuły, to bardzo krótkie lub średniej długości artykuły z encyklopedii PWN, nieprzekraczające kilkuset słów. Poza jednym wyjątkiem (hasło PWN „drewniane budownictwo”) wszystkie długie i bardzo długie artykuły w encyklopedii PWN istnieją w Wikipedii. Mogą one być bardzo krótkie, ale zagadnienie jest odnotowane, należy więc spodziewać się w przyszłości rozwinięcia tych tematów.
  • Elipsa – pokazuje niezbyt liczną grupę krótkich i średnich artykułów w Wikipedii, które otrzymały oceny -2, są więc wyraźnie gorsze niż ich odpowiedniki w encyklopedii PWN.
  • Owal (w górnej części) – pokazuje, że znaczna liczba artykułów Wikipedii bardzo krótkich, krótkich i średnich została oceniona jako artykuły niewiele gorsze, porównywalne, nieznacznie lepsze oraz dużo lepsze niż odpowiadające artykuły w encyklopedii PWN.
  • Trójkąt – grupuje długie i bardzo długie artykuły w encyklopedii PWN. Jak łatwo zauważyć, długość artykułów Wikipedii znacznie tutaj odstaje i niemal wszystkie artykuły zostały ocenione na dużo gorsze lub w najlepszym przypadku porównywalne.

Dane przedstawione na rys. 8 odnoszą się jednak tylko do długości artykułów w encyklopedii PWN, co nie daje pełnego obrazu odpowiednich długości artykułów Wikipedii. W tym celu wykonano jeszcze jedno porównanie, mianowicie oceniono stosunek długości artykułu Wikipedii do artykułu w encyklopedii PWN, czyli stosunek wyrażony wzorem słowa Wikipedii/słowa PWN (rys. 8). Jeśli artykuł w internetowej encyklopedii nie istniał, to przyznano mu długość 0, czyli w takim przypadku stosunek słowa Wikipedii/słowa PWN = 0, niezależnie od długości artykułu w encyklopedii PWN, a przyznana ocena wyniosła -3. Owal na rys. 8 wyraźnie pokazuje, że tylko artykuły Wikipedii, które są dwukrotnie dłuższe niż ich odpowiedniki w encyklopedii PWN, mają szansę na ocenę powyżej zera. Jeśli artykuły mają porównywalne długości (punkty leżące poza owalem na rys. 8), to praktycznie nie zdarza się, aby Wikipedia otrzymała wyższą ocenę.

Prostokąt na rys. 8 grupuje artykuły Wikipedii, które nie są wiele dłuższe niż ich odpowiedniki w encyklopedii PWN. Jak widać w takim przypadku oceny bardzo szybko spadają i jest bardzo mało prawdopodobne, aby artykuły o porównywalnej długości były ocenione na korzyść Wikipedii. Jeśli artykuł Wikipedii ma mniejszą liczbę słów niż odpowiedni artykuł w encyklopedii PWN, to jest niemal pewne, że zawiera znacząco mniejszą ilość informacji i jako taki będzie mniej użyteczny dla czytelnika (a więc otrzyma notę poniżej zera).

[Rozmiar: 31790 bajtów]
Rys. 8. Oceny Wikipedii względem stosunku długości artykułów

Część II – rozwój Wikipedii w latach 2004-2008

W pierwszej części niniejszego opracowania skupiono się na ocenie obecnego stanu rozwoju Wikipedii dokonanej poprzez porównanie artykułów hasłowych pochodzących z tejże encyklopedii orazz trzydziestotomowej Wielkiej encyklopedii PWN. Wikipedia jest tak zaprojektowana, że informacje na temat każdej korekty (nawet dodanie przecinka) dokonanej w artykule są zapisywane i każdy czytelnik ma dostęp do wszystkich wcześniejszych wersji artykułu (za wyjątkiem sytuacji, gdy dany artykuł został skasowany przez administratora). Te wcześniejsze wersje, dostępne przez kliknięcie w skrót „historia i autorzy” na górze każdego artykułu, zostały wykorzystane do poniższej analizy. Poniżej zaprezentowano statystyki dotyczące rozwoju artykułów Wikipedii na przestrzeni lat 2004-2008. Polska Wikipedia została założona w 2001 r. Do roku 2003 powstało tylko kilkanaście tysięcy haseł.

Większość z artykułów ocenionych w pierwszej części tego opracowania nie istniała przed rokiem 2004 i dlatego badania ograniczono tylko do lat 2004 i późniejszych. Zastosowano podobną metodę pomiarową jak zdefiniowano powyżej. Jedną z głównych różnic było przyjęcie wersji artykułów z września 2008 r. jako poziomu odniesienia (ponieważ te artykuły już zostały porównane do PWN) i porównywanie wersji tych samych artykułów z wcześniejszych lat. Oceną bazową była ocena z roku 2008 – jeśli więc wcześniejsze wersje artykułu były mniej rozbudowane, to otrzymywały odpowiednio niższą ocenę.

Dla przykładu – artykuł „Aleksander Kakowski” otrzymał notę +2 za wersję z roku 2008[12]. Wersja z roku 2007 różniła się niewiele[13], więc również przyznano notę +2. W roku 2006 artykuł był wyraźnie mniej rozbudowany[14], więc został oceniony na 0, podobnie jak w roku 2005[15]. W roku 2004 hasło było jeszcze krótsze[16], więc ocena spadła do -1. Nie zdarzyło się, aby wcześniejsza wersja artykułu otrzymała wyższą ocenę. Do oceny użyto ostatniej wersji artykułu dostępnej z danego roku, czyli np. z 31 grudnia. Jeśli taka wersja nie istniała, to użyto poprzedniej wersji. Jeśli artykuł pozostał niezmieniony przez kilka lat, to również ocena dla tych lat pozostawała niezmieniona. Jeśli artykuł nie istniał przed danym rokiem, to otrzymywał ocenę -3.

Liczba artykułów

Powyżej wyliczono, że w 2008 r. w Wikipedii istniało około 72% haseł takich samych jak w encyklopedii PWN. We wcześniejszych latach odsetek ten był odpowiednio mniejszy i zmieniał się tak, jak to przedstawiono na rys. 9. Na wykresie dodano również linię trendu, która obrazuje nieznaczne zwalnianie tempa wzrostu.

[Rozmiar: 31790 bajtów]
Rys. 9. Procentowe zmiany liczby haseł Wikipedii wobec tych zawartych w encyklopedii PWN z 2008 r. (przerywana linia obrazuje linię trendu)

Średnia liczba słów

Średnia liczba słów (rys. 10) została wyliczona tylko dla istniejących artykułów. Widać pewną zależność między danymi z rys. 9 i rys 10. Nie jest do końca jasne, czy ta korelacja jest rzeczywista, czy też tylko pozorna. Wynika to z faktu, że obecnie w Wikipedii istnieje tendencja do rozbijania bardzo długich artykułów na mniejsze, np. artykuł Wikipedii „Polska”[17] nie zawiera w sobie wszystkich informacji – do tego używane są dodatkowe artykuły podrzędne, jak np. „gospodarka Polski”[18]. Artykuły podrzędne nie zostały uwzględnione w niniejszych statystykach, co może powodować niedoszacowanie rozwoju objętości artykułów (w szczególnie w odniesieniu do PWN, która zamieszcza wszystkie informacje w głównym artykule – „gospodarka Polski” stanowi podsekcję ogólnego artykułu „Polska”).

[Rozmiar: 31790 bajtów]
Rys. 10. Zmiany średniej liczby słów w artykułach Wikipedii i encyklopedii PWN w latach 2004-2008

Nie zmienia to jednak faktu, że tak jak uwidacznia to rys. 8, liczba słów w artykule Wikipedii musi być co najmniej dwukrotnie większa niż w odpowiadającym artykule PWN, aby jakość była porównywalna. Jak widać z rys. 10, musi upłynąć jeszcze kilka lat, aby średnia liczba słów w artykule Wikipedii była odpowiednio duża.

Ocena ogólna i ocena skorygowana

Zaprezentowane powyżej wykresy pokazują, jak w latach 2004-2008 rozwijała się objętość, a w pewnym sensie i zawartość artykułów Wikipedii. Podczas analizy każdemu z artykułów nadano odpowiednią ocenę, zależną od wcześniejszych wersji – od tego czy były uboższe, o ile w ogóle istniały. Całkowita liczba przeanalizowanych artykułów istniejących w roku 2008 to 230, podczas gdy w roku 2004 było ich tylko 102 (z analizowanych 321). Każde nieistniejące hasło otrzymało ocenę o wartości -3, dlatego też oczywistym jest, że średnia ocena ogólna będzie znacznie gorsza dla lat wcześniejszych. Rys. 11 obrazuje ocenę analizowanych artykułów z ostatnich pięciu lat.

Jakakolwiek średnia nota poniżej -1 oznacza, że ogólnie całość jest oceniona na „dużo gorzej” niż źródło odniesienia, czyli encyklopedia PWN. Jeśli ocena jest niższa niż -2, oznacza to, że większości artykułów nie opracowano, co ma miejsce dla lat 2004-2005. Jest rzeczą niezwykle interesującą, że średnia ocena ogólna rośnie niemal w sposób liniowy, i że dopiero w ostatnim roku wartość oceny ogólnej przekroczyła próg -1, czyli że w ujęciu holistycznym (wliczając brakujące artykuły) użyteczność obydwu encyklopedii, tzn. Wikipedii i Wielkiej encyklopedii PWN, dla czytelnika – laika zaczęła być porównywalna. Dlatego też Wikipedia może być w średnim rozrachunku uznana jako tylko nieznacznie gorsza.

[Rozmiar: 31790 bajtów]
. 11. Średnia ocena ogólna Wikipedii dla poszczególnych lat

Niemniej jednak należy tu również wymienić ocenę skorygowaną, w której użyto tylko dla artykułów istniejących w obydwu encyklopediach. W tym przypadku najniższa możliwa nota to -2, więc każda nota poniżej -1 sugerować będzie niekwestionowaną wyższość encyklopedii PWN nad Wikipedią. Okazuje się, że tylko w roku 2004 ocena skorygowana wyniosła poniżej -1, podczas gdy dla kolejnych lat wzrost jest niemal liniowy na poziomie co najmniej 0,2 rocznie (rys. 11). Jeżeli takie tempo utrzyma się, należy się spodziewać, że dopiero w latach 2012-2013 średnia ocena przekroczy wartość +1, czyli że przeciętnie artykuły Wikipedii będą reprezentować się wyraźnie lepiej niż ich obecne odpowiedniki w encyklopedii PWN. Nawet jeśli można zaobserwować nieznaczne spowolnienie tego wzrostu w ostatnich latach, to jednak wydaje się nieuniknionym, że za rok ocena ogólna może wzrosnąć (i na pewno wzrośnie) wyraźnie powyżej wartości „zero”, co oznacza, że istniejące artykuły Wikipedii mogą być przeciętnie postrzegane przez czytelnika – laika jako nieznacznie lepsze niż PWN.

Podsumowanie

Niniejsze opracowanie miało na celu zbadanie rozwoju artykułów Wikipedii w latach 2004-2008. Jest rzeczą bezdyskusyjną, że Wikipedia rozwija się nieustannie i że ciągle rośnie objętość, poziom i zawartość multimedialna tego zasobu. Szczególną uwagę poświęcono możliwie obiektywnej ocenie obecnej sytuacji. Wprowadzono technikę pomiarową zdefiniowaną przed wykonaniem badań, co pozwoliło na zachowanie pewnego stopnia obiektywności oceny. Ocenione zostały przede wszystkim obiektywne parametry liczbowe oraz ilościowo-wizualne. Zastosowana metodologia nie pozwoliła na dokładniejsze porównanie artykułów hasłowych w encyklopedii PWN i Wikipedii. Autorzy nie zgłębiali tego zagadnienia, pomimo znalezienia pewnej liczby błędów merytorycznych zarówno w Wikipedii, jak i w encyklopedii PWN. Ocena błędów merytorycznych wykracza poza ramy niniejszego opracowania – wymagałaby współpracy specjalistów z wielu dziedzin nauki.

Niemniej jednak bardziej szczegółowe badania zawartości merytorycznej i liczby błędów zostały przeprowadzone dla angielskojęzycznej Wikipedii przez porównanie jej artykułów z Encyclopaedia Britannica. Wyniki opublikowane w renomowanym magazynie naukowym „Nature” okazały się co najmniej zaskakujące[19], ponieważ, jak wykazano, artykuły Encyclopaedia Britannica zawierały błędy merytoryczne mniej lub bardziej poważne na poziomie porównywalnym z Wikipedią (123 błędy Britannica, 162 błędy Wikipedia). Z kolei porównanie niemieckiej Wikipedii z komercyjną encyklopedią internetową wydawnictwa Brockhaus wykazało w losowo wybranych 50 artykułach dość wyraźną wyższość tej pierwszej[20].

Jeśli chodzi o przedstawioną tutaj ocenę polskiej Wikipedii w porównaniu do Wielkiej encyklopedii PWN, to w dalszym ciągu wypada ona lepiej dla encyklopedii PWN. Niemniej jednak statystyki wyraźnie pokazują, że Wikipedia rozwija się niemal liniowo w ostatnich pięciu latach i że jeśli takie tempo wzrostu się utrzyma, to jej użyteczność dla przeciętnego czytelnika na pewno przekroczy użyteczność ostatniego wydania trzydziestotomowej Wielkiej encyklopedii PWN. Jeśli chodzi o ilustracje i multimedia, to Wikipedia już w tej chwili zawiera kilkakrotnie więcej grafik, map, animacji, dźwięków i tematycznych galerii, a liczba ta cały czas rośnie co najmniej wprost proporcjonalnie do wzrostu liczby haseł (odpowiednie dane porównujące średnią liczbę ilustracji, multimediów i bibliografii w hasłach obydwu encyklopedii zostaną wkrótce opublikowane). W Wikipedii przybywa dziennie ponad 100 nowych artykułów i należy się spodziewać przyrostu rzędu 5% rocznie w stosunku do obecnie brakujących artykułów z encyklopedii PWN.

Jak we wstępie zauważyliśmy, polska Wikipedia ma ponad 540 tysięcy artykułów, encyklopedia PWN – 140 tysięcy. Istnieje więc bardzo dużo artykułów, których nie ma w encyklopedii PWN, ale które mogą być istotne dla przeciętnego czytelnika. Dla przykładu po wydaniu drukowanej wersji encyklopedii nie ma możliwości dodawania nowych artykułów ani rozbudowania już istniejących. Wikipedia nie ma takich ograniczeń i niejako z definicji wprowadza się w niej na bieżąco zmiany, koryguje wszelkie dostrzeżone lub zgłoszone błędy czy też dodaje nowe ilustracje, np. nowo odkrytych zjawisk fizycznych czy obiektów astronomicznych. Dla Wikipedii pracuje bardzo niewielu specjalistów, a osób z tytułem profesora, którzy ujawnili swą tożsamość, jest zaledwie kilku. Względnie wysoka jakość artykułów w projekcie nie jest zatem zależna od profesjonalnego wykształcenia jej twórców. Założyć tu trzeba, co raczej znamy z codziennych obserwacji dokonywanych w Wikipedii, że pod względem merytorycznym artykuły prezentują różną jakość – w dalszym ciągu znajdują się tu hasła dużo słabsze (lub nieistniejące) niż te umieszczone w komercyjnej encyklopedii, niemniej jednak w ogólnym rozrachunku różnica ta wydaje się szybko zacierać, stanowiąc już raczej szybko zmniejszający się odstęp niż przepaść, jak to miało miejsce jeszcze kilka lat temu. Oznaczać to może, że oparta na zaangażowaniu i współpracy „produkcja partnerska”[21] nie jest bynajmniej przereklamowaną metodą wytwarzania dóbr, szczególnie tych odnoszących się do zasobów wiedzy.

Przypisy

[1] KEEN, A. Kult amatora. Jak internet niszczy kulturę. Warszawa: Wydawnictwa Akademickie i Profesjonalne, 2007. ISBN 978-83-60807-25-5.

[2] TAPSCOTT, D., WILIAMS, A. D. Wikinomia. O globalnej współpracy, która zmienia wszystko. Warszawa: Wydawnictwa Akademickie i Profesjonalne, 2008, s. 183-218. ISBN 978-83-60807-23-1.

[3] WALLACE, P. Psychologia Internetu. Poznań: Rebis, 2001, s. 136 i dalsze. ISBN 83-7301-075-0.

[4] Wikipedia jak Britannica. W: BBC Polska [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://www.bbc.co.uk/polish/scitech/story/2005/12/051215_wikipedia.shtml.

[5] Wikipedia schlägt Brockhaus. stern-Test. W: stern.de [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://www.stern.de/computer-technik/internet/:%0A%09%09stern-Test%0A%09%09%09-Wikipedia-Brockhaus/604423.html.

[6] WRYCZA, J. Wikipedia – hipertekstowa sieć wiedzy czy przyszłość galaktyki Gutenberga?” W: Sokołowski, M. (red.). Definiowanie McLuhana. Media a perspektywy rozwoju rzeczywistości wirtualnej. Olsztyn: Algraf, 2006, s. 140. ISBN 83-915484-5-7.

[7] GNU Free Documentation License. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=GNU_Free_Documentation_License&oldid=14281686.

[8] Wielka encyklopedia PWN. Warszawa: Wydaw. PWN, 2001.; Wielka encyklopedia PWN [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://we.pwn.pl/.

[9] Wielka Encyklopedia PWN [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://we.pwn.pl/.

[10] Polska [wersja artykułu z 28 września 2008]. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Polska&oldid=14256060.

[11] Gospodarka Polski. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Gospodarka_Polski&oldid=14266295.

[12] Aleksander Kakowski [wersja z 9 maja 2008]. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Aleksander_Kakowski&oldid=12458183.

[13] Aleksander Kakowski [wersja artykułu z 12 listopada 2007]. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Aleksander_Kakowski&oldid=10219619.

[14] Aleksander Kakowski. [wersja z 7 października 2006]. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Aleksander_Kakowski&oldid=4892552.

[15] Aleksander Kakowski [wersja z 31 grudnia 2005]. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Aleksander_Kakowski&oldid=2140540.

[16] Aleksander Kakowski [wersja z 3 grudnia 2004]. W: Wikipedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Aleksander_Kakowski&oldid=652993.

[17] Polska [wersja artykułu z 28 września 2008]. W: Wikipedia – Wolna Encyklopedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Polska&oldid=14256060.

[18] Gospodarka Polski. W: Wikipedia – Wolna Encyklopedia [on-line], [dostęp 2 października 2008]. Dostępny w World Wide Web: http://pl.wikipedia.org/w/index.php?title=Gospodarka_Polski&oldid=14266295.

[19] TERDIMAN, D. Study: Wikipedia as accurate as Britannica. W: CNET News, [on-line], [dostęp 2 październik 2008]. Dostępny w World Wide Web: http://news.cnet.com/2100-1038_3-5997332.html.

[20] Wikimedia Foundation [on-line], [dostęp 2 października 2008]. German Language Wikipedia Better than Brockhaus Online, Analysis Indicates. Dostępny w World Wide Web: http://wikimediafoundation.org/wiki/Press_releases/German_Wikipedia.

[21] TAPSCOTT, D., WILIAMS, A. D., dz. cyt.

Obaj autorzy są aktywnymi współtwórcami Wikipedii, zaangażowanymi w tworzenie inicjatyw podnoszenia jakości tego projektu. Są również administratorami Wikipedii, czyli użytkownikami mającymi dodatkowe uprawnienia, np. w zakresie blokowania możliwości edytowania artykułów czy fizycznego usuwania stron zawierających treści wprowadzone niezgodnie z przyjętymi zasadami.

 Początek strony



Pochwała amatora. Rozwój polskiej Wikipedii w latach 2004-2008 na tle profesjonalnej encyklopedii PWN / Stanisław Żurek, Sebastian Skolik // W: Biuletyn EBIB [Dokument elektroniczny] / red. naczelny Bożena Bednarek-Michalska - Nr 1/2009 (101) luty. - Czasopismo elektroniczne. - [Warszawa] : Stowarzyszenie Bibliotekarzy Polskich KWE, 2010. - Tryb dostępu: http://www.ebib.info/2010/101/a.php?zurek_skolik. - Tyt. z pierwszego ekranu. - ISSN 1507-7187