Archiwum Społeczne Polskiego Webu

Powstało Archiwum Społeczne Polskiego Webu

  • oddolny projekt tworzenia zbioru wspierającego badania z wykorzystaniem historycznych zasobów webowych; dokumentowanie m.in. kryzysu migracyjnego, bieżących wydarzeń w polityce krajowej i pandemii koronawirusa;
  • ponad 100 tys. skatalogowanych adresów URL wyodrębnionych z ponad 4 mln tweetów;
  • dane dostępne za darmo na warunkach wolnej licencji, do swobodnego wykorzystania;
  • strona archiwum: https://aspw.pl/.

Ponad 100 tys. skategoryzowanych adresów URL i 4 mln identyfikatorów tweetów można wykorzystać bezpłatnie do celów badawczych dzięki działaniom Archiwum Społecznego Polskiego Webu (ASPW, https://aspw.pl/). Od listopada 2020 archiwum indeksuje strony internetowe linkowane we wpisach polskich użytkowników Twittera i udostępnia informacje na temat ich obecności w archiwach Webu. Zbiory archiwum dostępne są na wolnej licencji Open Data Commons Attribution License (ODC-By) i mogą być z powodzeniem wykorzystane jako otwarte dane badawcze.

ASPW respektuje przepisy prawa autorskiego i regulamin platformy Twitter, dlatego nie gromadzi i nie udostępnia treści indeksowanych stron. Udostępniane są jedynie metadane stron i identyfikatory tweetów. Identyfikatory te można wykorzystać do pobrania treści tweetów dzięki narzędziom takim jak hydrator (https://github.com/DocNow/hydrator). Równocześnie archiwa Webu (takie jak Internet Archive) pozwalają w łatwy sposób i także maszynowo wyszukiwać kopie archiwalne stron WWW po ich adresach URL. ASPW ułatwia więc badania z wykorzystaniem zasobów webowych, proponując otwartą alternatywę dla komercyjnych systemów indeksujących strony WWW i media społecznościowe.

Dane ASPW wykorzystać można w badaniach Webu, na przykład stabilności zasobów polskiej domeny (problem link rot), ale też do badań społecznych czy językowych, w których zasoby internetowe są źródłami podlegającymi analizie. ASPW zawiera też duży zbiór identyfikatorów tweetów i adresów stron dokumentujących pandemię koronawirusa.

Zależy mi na tym, żeby ułatwić inicjowanie badań z wykorzystaniem zasobów WWW. – mówi Marcin Wilkowski, założyciel ASPW. Pierwszym problemem, na jaki natrafia osoba chcąca przygotować analizy internetowe, jest dostępność danych historycznych. ASPW publikuje je za darmo i na wolnej licencji. Ponieważ gromadzone adresy stron pochodzą z korpusu twitterowego, możemy oczekiwać, że lepiej reprezentują najważniejsze społecznie zasoby polskiego Webu niż adresy gromadzone losowo. Wykorzystanie mediów społecznościowych w budowie zasobu archiwalnego to zresztą podejście od kilku lat mocno obecne w literaturze naukowej dotyczącej archiwistyki Webu.

Inspiracją dla powstania archiwum były projekty takie jak Common Crawl (https://commoncrawl.org/) czy HTTP Archive (https://httparchive.org/), budujące otwarty globalny indeks WWW, oraz projekt Documenting the Now (https://www.docnow.io/), którego celem jest upowszechnianie narzędzi i metod archiwizowania i badania historycznego Webu. W planach rozwoju ASPW jest udostępnianie zbiorów danych publikowanych w mediach społecznościowych przez oficjalne konta instytucji państwowych oraz testowy projekt indeksowania i archiwizacji linków z przypisów publikacji naukowych z polskich czasopism open access. Gromadzone będą także sumy kontrolne wyliczane z kodu źródłowego indeksowanych stron WWW, aby można było wychwytywać tzw. content drift, czyli zmiany w treściach dostępnych pod tym samym adresem URL.

Zasoby WWW są regularnie archiwizowane w ramach programów prowadzonych przez dziesiątki bibliotek, archiwów i instytucji pozarządowych na całym świecie. W październiku tego roku minęło 25 lat od pierwszych archiwizacji Webu, podjętych przez amerykańską fundację Internet Archive. W Polsce nie istnieją żadne programy tego typu.

Marcin Wilkowski jest programistą, pracującym w Centrum Kompetencji Cyfrowych UW i doktorantem IBL PAN, zajmującym się metodami badań historycznych polskiego Webu lat 90. W CKC UW rozwija pracownię archiwistyki webowej (webArch, https://ckc.uw.edu.pl/webarch/).

ASPW nie jest w żaden sposób finansowane, można je wspierać na Patronite (https://patronite.pl/aspw). Bieżące informacje o działaniach archiwum można znaleźć na Twitterze (https://twitter.com/ArchiwumWWW).