13 październik 2021

Poezja przez pryzmat językoznawstwa komputerowego

Jak komputer czyta poezję? Czy możliwe jest spotkanie emocjonalnego, osobistego odbioru z automatycznym przetwarzaniem języka utworu literackiego – tak specyficznego, jak wiersz, a w szczególności – wiersz romantyczny?

Podczas tegorocznego Festiwalu Nauki w Instytucie Badań Literackich PAN Anna Mędrzecka, doktorantka kierunku Humanistyka Cyfrowa, oraz dr Ewa Mirkowska, współpracująca z CLARIN w ramach projektu Korpus Czterech Wieszczów, przedstawiły zainteresowanym swoje doświadczenie z badania literatury polskich romantyków – Adama Mickiewicza i Juliusza Słowackiego – za pomocą narzędzi cyfrowych.

Romantycy, kojarzeni z „czuciem i wiarą”, w powszechnym odbiorze uznawani są za poetów nastawionych na przekaz emocjonalny, niemożliwy do odczytania „szkiełkiem i okiem” zdystansowanej lektury, a tym bardziej lektury automatycznej. A jednak okazuje się, że potraktowanie poezji wieszczów jako zbioru danych może pozwolić na postawienie nowych pytań badawczych oraz na lepsze zbadanie języka autorów, których twórczość w ogromnym stopniu ukształtowała dzisiejszą polszczyznę.

Wykorzystanie metod komputerowego przetwarzania tekstów w praktyce, i to na nietypowym materiale, jakim jest twórczość poetów romantycznych, może doprowadzić do interesujących wniosków zarówno dla osób zainteresowanych lingwistyką komputerową, jak i literaturoznawców.

Podczas spotkania zaprezentowane zostało wykorzystanie narzędzi wchodzących w skład infrastruktury CLARIN na przykładzie badań dwóch korpusów. Pierwszy z nich obejmował cały zasób wierszy Adama Mickiewicza i Juliusza Słowackiego podzielony odpowiednio na podkorpusy, drugi zaś obejmował całość Pana Tadeusza Adama Mickiewicza oraz zespół fragmentów znany jako Pan Tadeusz pióra Juliusza Słowackiego.

Aby porównać wiersze Mickiewicza i Słowackiego wykorzystano narzędzie CompCorp. Badanie przyniosło wiele zaskakujących wniosków dotyczących na przykład zasobu leksykalnego wieszczów. Polem semantycznym zbadanym w ramach przykładu była „miłość” i pokrewne z nią leksemy. Okazało się, że ani miłość, ani czasowniki pokrewne nie znalazły się w czołówce pod względem frekwencji w omawianych korpusach.

Obie wersje Pana Tadeusza zostały porównane zarówno za pomocą CompCorpa, jak i narzędzia WebSty. Okazało się, że choć komputer nie jest w stanie poprawnie odróżnić autora „niepasującego” fragmentu, tu analiza listy lematów różnicujących oba zbiory daje bardzo wyraźną wskazówkę w postaci występowania w tekście Słowackiego słów, które u Mickiewicza nie pojawiają się ani razu.

To ostatnie badanie pokazuje jednoznacznie, że analiza komputerowa jest doskonałym narzędziem, które może wspierać także literaturoznawców pracujących tradycyjnymi metodami. Komputer umie bowiem przeczytać poezję jako zbiór danych, ale potrzebuje człowieka badacza, który będzie umiał postawić odpowiednie pytania i zinterpretować otrzymane wyniki tak, by wyciągnąć z nich ciekawe i rzetelne wnioski.

Anna Mędrzecka

Poezja przez pryzmat językoznawstwa komputerowego

Related Posts

Wyniki konkursu 2024 CLARIN-PL dla doktorantów i młodych naukowców

Warsztaty hybrydowe Słowosieć 5.0

Konkurs CLARIN-PL dla doktorantów i młodych naukowców 2024