Korpus Dyskursu Parlamentarnego

Nazwa

Korpus Dyskursu Parlamentarnego – zbiór tekstów z posiedzeń plenarnych Sejmu i Senatu RP

Opis

Korpus Dyskursu Parlamentarnego jest stale uzupełnianym zbiorem anotowanych lingwistycznie tekstów z posiedzeń plenarnych Sejmu i Senatu RP, interpelacji i zapytań poselskich oraz posiedzeń komisji od roku 1919 do chwili obecnej. Teksty opisane metadanymi oraz przetworzone automatycznie narzędziami lingwistycznymi (na poziomie segmentacji, analizy morfoskładniowej, rozpoznawania grup składniowych i nazw własnych) są dostępne do przeszukiwania oraz pobrania.Korpus Dyskursu Parlamentarnego jest stale uzupełnianym zbiorem anotowanych lingwistycznie tekstów z posiedzeń plenarnych Sejmu i Senatu RP, interpelacji i zapytań poselskich oraz posiedzeń komisji od roku 1919 do chwili obecnej. Teksty opisane metadanymi oraz przetworzone automatycznie narzędziami lingwistycznymi (na poziomie segmentacji, analizy morfoskładniowej, rozpoznawania grup składniowych i nazw własnych) są dostępne do przeszukiwania oraz pobrania.

Adres bibliograficzny publikacji przewodniej (w przypadku użycia KDP, prosimy o cytowanie tej publikacji):

Ogrodniczuk, M. (2018). Polish Parliamentary Corpus, In: Fišer, D., Eskevich, M., & de Jong, F. (Eds.) Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, 15–19. European Language Resources Association. http://lrec-conf.org/workshops/lrec2018/W2/pdf/11_W2.pdf

Materiały pomocnicze:

Informacja o korpusie: https://kdp.nlp.ipipan.waw.pl/overview
Prezentacja z warsztatów CLARIN-PL: https://nextcloud.clarin-pl.eu/index.php/s/NamH1NdOqJdrRw2

Korpus dyskursu parlamentarnego – dr hab. M. Ogrodniczuk, dr hab. M. Derwojedowa

Dostęp

Strona korpusu z wersją do pobrania: http://clip.ipipan.waw.pl/PPC
Wyszukiwarka korpusowa: https://kdp.nlp.ipipan.waw.pl

Link do instrukcji

Instrukcja użytkownika wyszukiwarki korpusowej: https://kdp.nlp.ipipan.waw.pl/manual

Przykładowe zastosowania

Roselló Beneitez N. U. (2020). Development and evaluation of a Polish Automatic Speech Recognition system using the TLK toolkit. Praca magisterska. Universitat Politècnica de València (Politechnika w Walencji).

Szczyszek M. (2019). Emocje w parlamencie – parlament w emocjach: ujęcie statystyczne. O projekcie słownika polskiego parlamentaryzmu XX wieku (lata 1918–2018). Prace Językoznawcze 20(3), 203–218.

Ustaszewski M. (2016). Data Sparsity in Highly Inflected Languages: The Case of Morphosyntactic Tagging in Polish. Praca magisterska. Euskal Herriko Unibertsitatea (Uniwersytet Kraju Basków).

Przybyła P., & Teisseyre P. (2014). Analysing Utterances in Polish Parliament to Predict Speaker’s Background. Journal of Quantitative Linguistics 21(4), 350–376.