Cat
Nazwa
Cat – proste narzędzie do klasyfikacji tekstów
Opis
Narzędzie umożliwia dokonanie klasyfikacji (grupowania) tekstów według jednego z kryteriów: (1) klasyfikacja tematyczna wg modelu wyuczonego na pięciu kategoriach wikipedii, (2) klasyfikacja tematyczna wg modelu wyuczonego na tematyce prasowej, (3) klasyfikacja według podobieństwa stylu gramatycznego do stylu jednego ze znanych polskich pisarzy XIX i XX wieku, (4) wykrywanie udziału języka w całym korpusie. Analizie można poddać dowolny korpus spakowany do postaci archiwum .zip. Możliwe jest również wykonanie grupowanie zaawansowanego grupowanie według innych modeli lub dużych ilości tekstów – w tym celu prosimy o kontakt pod adresem: webserwisy@clarin-pl.eu
Adres bibliograficzny publikacji przewodniej (w przypadku użycia Cat, prosimy o cytowanie tej publikacji):
Walkowiak T., Datko S., Maciejewski H.: Distance metrics in Open-Set Classification of Text Documents by Local Outlier Factor and Doc2Vec. In: Wotawa F., Friedrich G., Pill I., Koitz-Hristov R., Ali M. (eds) Advances and Trends in Artificial Intelligence. From Theory to Practice. IEA/AIE 2019. Lecture Notes in Computer Science, vol 11606. Springer, Cham
Materiały pomocniczne:
Link do instrukcji
Przykładowe zastosowania