Multiemo

Nazwa

MultiEmo – narzędzie do wielojęzycznej analizy sentymentu

Opis

MultiEmo jest nowym, wzorcowym zbiorem danych dla wielojęzycznej analizy sentymentu, obejmującym 11 języków. Korpus może być analizowany jako tekst, akapity lub zdania. Zbiór zawiera recenzje konsumentów z czterech dziedzin: medycyna, hotele, produkty i uniwersytet. Oryginalne recenzje w języku polskim zawierały 8 216 dokumentów składających się z 57 466 zdań. Recenzje zostały poddane ręcznej anotacji sentymentu na poziomie całego dokumentu oraz na poziomie zdania (3 anotatorów na element). Osiągnęliśmy wysoką wartość Positive Specific Agreement na poziomie 0.91 dla tekstów i 0.88 dla zdań. Zbiór został następnie automatycznie przetłumaczony na języki: angielski, chiński, włoski, japoński, rosyjski, niemiecki, hiszpański, francuski, holenderski i portugalski. MultiEmo jest publicznie dostępne na licencji Creative Commons Attribution 4.0 International.

Adres bibliograficzny publikacji przewodniej (w przypadku użycia LEMa, prosimy o cytowanie tej publikacji):

Pęzik, P., & Buczek, M. (2015). Druga wersja klasyfikatora tematycznego tekstów WiKNN. Zadanie A23. Punkt kontrolny M16. http://pelcra.clarin-pl.eu/tools/pdf/wiknn.pdf

Kocoń J., Miłkowski P., Kanclerz K. (2021) MultiEmo: Multilingual, Multilevel, Multidomain Sentiment Analysis Corpus of Consumer Reviews. In: Paszynski M., Kranzlmüller D., Krzhizhanovskaya V.V., Dongarra J.J., Sloot P.M.A. (eds) Computational Science – ICCS 2021. ICCS 2021. Lecture Notes in Computer Science, vol 12743. Springer, Cham. 

https://doi.org/10.1007/978-3-030-77964-1_24

https://www.aclweb.org/anthology/K19-1092/