Cat
Nazwa
Cat – proste narzędzie do klasyfikacji tekstów
Opis
Narzędzie umożliwia dokonanie klasyfikacji (grupowania) tekstów według jednego z kryteriów:
(1) klasyfikacja tematyczna wg modelu wyuczonego na pięciu kategoriach grupowania Wikipedii
(2) klasyfikacja tematyczna wg modelu wyuczonego na tematyce prasowej
(3) klasyfikacja według podobieństwa stylu gramatycznego do stylu jednego ze znanych polskich pisarzy XIX i XX wieku
(4) wykrywanie udziału języka w całym korpusie
Analizie można poddać dowolny korpus spakowany do postaci archiwum .zip. Możliwe jest również wykonanie grupowania zaawansowanego, grupowanie według innych modeli lub dużych ilości tekstów – w tym celu prosimy o kontakt pod adresem: webserwisy@clarin-pl.eu
Adres bibliograficzny publikacji przewodniej (w przypadku użycia Cat, prosimy o cytowanie tej publikacji):
Walkowiak T., Datko S., Maciejewski H.: Distance metrics in Open-Set Classification of Text Documents by Local Outlier Factor and Doc2Vec. In: Wotawa F., Friedrich G., Pill I., Koitz-Hristov R., Ali M. (eds) Advances and Trends in Artificial Intelligence. From Theory to Practice. IEA/AIE 2019. Lecture Notes in Computer Science, vol 11606. Springer, Cham