ComCorp

Nazwa

ComCorp – porównywanie cech językowych korpusów

Opis

Narzędzie umożliwia wgranie dwóch dowolnych korpusów (spakowanych uprzednio do formatu archiwum .zip). Następnie dokonuje ich porównania pod względem następujących cech: występowanie charakterystycznych (swoistych) jednostek wielowyrazowych, występowanie tagów gramatycznych (wg tagsetu NKJP), występowanie słownictwa swoistego dla danych korpusów, występowanie słownictwa różnicującego korpusy, występowanie nazw własnych, charakterystyki czasowników, cechy statystyczne korpusów. Narzędzie ComCorp umożliwia szybkie wychwycenie językowych cech wspólnych oraz różnicujących dwa dowolne zbiory tekstów. 

Adres bibliograficzny publikacji przewodniej (w przypadku użycia Chronocorpusu, prosimy o cytowanie tej publikacji):

Walkowiak, T.: Language Processing Modelling Notation – Orchestration of NLP Microservices.
In: Advances in Dependability Engineering of Complex Systems:
Proceedings of the Twelfth International Conference on Dependability and
Complex Systems DepCoS-RELCOMEX, 2017, Springer International
Publishing, pp. 464-473

Przykładowe zastosowania

Tworzenie korpusów zrównoważonych; szybka eksploracja zbiorów tekstów; porównywanie cech językowych zróznicowanych zbiorów tekstów (np. pod względem autorstwa, gatunku, roku powstania itp.).