KPWr

Nazwa

KPWr (Korpus Języka Polskiego Politechniki Wrocławskiej, ang. Polish Corpus of Wrocław University of Technology)

Opis

KPWr jest zbiorem dokumentów tekstowych dostępnych na licencji Creative Commons. Dokumenty zostały otagowane przy pomocy narzędzia wcrft2 i opisane różnymi typami informacji takimi jak frazy składniowe (chunks), relacje między frazami skłądniowymi, jednostki identyfikacyjne (wraz zrelacjami między nimi i lematyzacją), ujednoznacznione znaczenia słów, wyrażenia przestrzenne, czasowniki z podmiotem domyślnym, tekstowe słowa kluczowe, wyrażenia temporalne (normalizowane lokalnie i globalnie), sytuacje, role semantyczne i koreferencja. Szczegółowe statystyki znajduiją się na stronie: http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/kpwr Każdy dokument zapisany jest w trzech plikach, które zawierają następujące informacje:
*.xml (plik CCL) – zawiera tokenizację, podział na zdania, analizę morfologiczną tekstu, anotacje oraz lematy,
*.rel.xml (plik CCL-REL) – zawiera relacje między anotacjami,
*.ini (plik INI) – zawiera metadane dokumentu.
Dodatkowo korpus może zostać wyeksportowany w formacie conll, txt i json.
Próbki do korpusu pobrano z takich źródeł jak: Wikipedia, Wikinews, portale informacyjne z treściami na licencji Creative Commons, dzieła literackie z domenty publicznej lub udostępnione na otwartej licencji itd., a więc takich, które zapewniają legalne i darmowe wykorzystanie korpusu.
Korpus w ostatniej upublicznionej wersji skłąda się z 449 985 tokenów, lecz jest stale rozbudowywany i rozwijany w kierunku korpusu zrównoważonego, zawierającego w równym stopniu teksty o charakterze naukowym, urzędowym, artystycznym/retorycznym, prasowym/publicystycznym i potocznym.KPWr jest zbiorem dokumentów tekstowych dostępnych na licencji Creative Commons. Dokumenty zostały otagowane przy pomocy narzędzia wcrft2 i opisane różnymi typami informacji takimi jak frazy składniowe (chunks), relacje między frazami skłądniowymi, jednostki identyfikacyjne (wraz zrelacjami między nimi i lematyzacją), ujednoznacznione znaczenia słów, wyrażenia przestrzenne, czasowniki z podmiotem domyślnym, tekstowe słowa kluczowe, wyrażenia temporalne (normalizowane lokalnie i globalnie), sytuacje, role semantyczne i koreferencja. Szczegółowe statystyki znajduiją się na stronie: http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/kpwr Każdy dokument zapisany jest w trzech plikach, które zawierają następujące informacje:
*.xml (plik CCL) – zawiera tokenizację, podział na zdania, analizę morfologiczną tekstu, anotacje oraz lematy,
*.rel.xml (plik CCL-REL) – zawiera relacje między anotacjami,
*.ini (plik INI) – zawiera metadane dokumentu.
Dodatkowo korpus może zostać wyeksportowany w formacie conll, txt i json.
Próbki do korpusu pobrano z takich źródeł jak: Wikipedia, Wikinews, portale informacyjne z treściami na licencji Creative Commons, dzieła literackie z domenty publicznej lub udostępnione na otwartej licencji itd., a więc takich, które zapewniają legalne i darmowe wykorzystanie korpusu.
Korpus w ostatniej upublicznionej wersji skłąda się z 449 985 tokenów, lecz jest stale rozbudowywany i rozwijany w kierunku korpusu zrównoważonego, zawierającego w równym stopniu teksty o charakterze naukowym, urzędowym, artystycznym/retorycznym, prasowym/publicystycznym i potocznym.

Adres bibliograficzny publikacji przewodniej (w przypadku użycia KPWr, prosimy o cytowanie tej publikacji):

Bartosz Broda, Michał Marcińczuk, Marek Maziarz, Adam Radziszewski, Adam Wardyński. KPWr: Towards a Free Corpus of Polish. Proceedings of LREC’12, 2012.

Michał Marcińczuk, Marcin Oleksy, Jan Kocoń, Tomasz Bernaś, Michał Wolski. Towards an event annotated corpus of Polish. Cognitive Studies | Études cognitives, 2015.

Dostęp

download (1): https://clarin-pl.eu/dspace/handle/11321/722
download (2): http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/zasoby/kpwr
przeglądarka korpusowa: https://kontext.clarin-pl.eu/run.cgi/first?shuffle=1&reload=1&corpname=kpwr1_2
system do anotacji: https://inforex-work.clarin-pl.eu/?corpus=7&page=corpus_start (wymagane konto użytkownika)

Przykładowe zastosowania

Kobyliński, Ł. et al. “PolEval 2019 — the next chapter in evaluating Natural Language Processing tools for Polish.” (2019).

Altuna, B., Aranzabe, M. J., & Díaz de Ilarraza, A. (2020). EusTimeML: A mark-up language for temporal information in Basque. Research in Corpus Linguistics, 8(1), 86-104. https://doi.org/10.32714/ricl.08.01.06

Łukasz Kobyliński and Michał Wasiluk. Deep learning in event detection in Polish. In Christiane Fellbaum, Piek Vossen, Ewa Rudnicka, Marek Maziarz, and Maciej Piasecki, editors, Proceedings of the 10th Global WordNet Conference (GWC 2019), pages 216–221, Wrocław, 2019. Oficyna Wydawnicza Politechniki Wrocławskiej.