TermoPL

Nazwa

TermoPL – narzędzie do wydobywania terminów z korpusów

Opis

TermoPL to narzędzie, służące do automatycznego wydobycia terminologii dziedzinowej z tekstów. Poza terminologią, narzędzie może służyć do ekstrakcji jednostek wielowyrazowych. Wydobycie terminologii jest mechanizmem pomocnym m.in. w tworzeniu słowników dziedzinowych, zasobów do tłumaczenia tekstów oraz streszczeń dokumentów, w opracowywaniu ontologii danej dziedziny, w anotacji dokumentów i wspomaganiu wyszukiwania odpowiedzi na pytania.

Program wyszukuje frazy rzeczownikowe, będące kandydatami na terminy badanej dziedziny, przy pomocy prostej gramatyki, którą użytkownik może dostosować zgodnie do swoich wymagań. Program przystosowany jest do korzystania z różnych tagsetów, a co za tym idzie może być użyty do ekstrakcji terminologii z tekstów w różnych językach. Program akceptuje dane, które wcześniej zostały anotowane częściami mowy i innymi znacznikami morfologicznymi. W przypadku języka polskiego, jest możliwość pracy na nieanotowanych korpusach tekstowych. W takim przypadku, program najpierw taguje wejściowy tekst przy użyciu narzędzia Concraft.

Adres bibliograficzny publikacji przewodniej (w przypadku użycia TermoPL, prosimy o cytowanie tej publikacji):

Marciniak, M., Mykowiecka, A., & Rychlik, P. (2019). TermoPL — a flexible tool for terminology extraction. In Calzolari, N., Choukri, K., Declerck, T., Grobelnik, M., Maegaard, B., Mariani, J., Moreno, A., Odijk, J., & Piperidis, S. (Eds.). Proceedings of the Tenth International Conference on Language Resources and Evaluation, LREC 2016, 2278–2284, Portorož, Slovenia, 2016. European Language Resources Association (ELRA), European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2016/pdf/296_Paper.pdf

Materiały pomocniczne:

Małgorzata Marciniak, Agnieszka Mykowiecka, and Piotr Rychlik. Automatyczne wydobywanie terminologii dziedzinowej z korpusów tekstowych. Język Polski, XCVII(1):64–74, 2017. https://www.ceeol.com/search/article-detail?id=528577
Presentacja z warsztatów CLARIN-PL. http://clarin-pl.eu/wp-content/uploads/2019/10/termopl-lublin.pdf

Przykładowe zastosowania

Małgorzata Marciniak, Agnieszka Mykowiecka, and Piotr Rychlik. Recognition of irrelevant phrases in automatically extracted lists of domain terms. Terminology, 24(1):66–90, 2018. http://www.jbe-platform.com/content/journals/10.1075/term.00014.myk
Michalina Skibicka, Automatic Recognition of Unfair Clauses in Polish Consumer Contracts https://www.researchgate.net/publication/330205376_Automatic_Recognition_of_Unfair_Clauses_in_Polish_Consumer_Contracts
Marcin Będkowski, Michał Marcińczuk, Łukasz Kobyliński, Grzegorz Wojdyga. Podobieństwo opisów kwalifikacji znajdujących się w Zintegrowanym Rejestrze Kwalifikacji, Seminarium “Przetwarzania Języka Naturalnego”. https://www.youtube.com/watch?v=-oSBqG4_VDk