Przeznaczenie programu

Szybko rosnący wachlarz usług, narzędzi i funkcji infrastruktury CLARIN-PL może utrudniać zorientowanie się w jakich zastosowaniach naukowych możemy być przydatni. By przezwyciężyć powyższe trudności oraz te wynikające z nieustabilizowanej terminologii związanej z zastosowaniem maszynowego przetwarzania języka w polskim dyskursie naukowym, przedstawiamy poniżej spis elementów infrastruktury uporządkowany według kryterium funkcjonalności.

Pomocniczym, uproszczonym kryterium podziału funkcjonalnego jest “faza badań“. Postanowiliśmy przypisać poszczególne funkcje naszych narzędzi/usług/aplikacji do jednej czterech faz badań, które można zazwyczaj wyszczególnić podczas pracy z metodami NLP w zastowaniach naukowych (sektor H&SS).

Formowanie

(skąd uzyskać materiał tekstowy?)

Jest to etap poprzedzający właściwe działania badawcze – jego celem jest uzyskanie tekstu w formie takiej, która nadaje się do dalszych etapów maszynowej analizy języka. W praktyce do tego etapu należą takie działania, jak: OCR, transkrypcja tekstów mówionych, ściąganie tekstów z internetu, gromadzenie wpisów z portali społecznościowych itp. CLARIN tylko częściowo wspiera działania w tej fazie badań.

Opracowanie

(jak przygotować materiał?)

W etapie opracowania zgromadzone teksty zostają poddane przetworzeniu maszynowemu lub ręcznemu. W wyniku przetwarzania materiał tekstowy zostaje wyposażony w dodatkową warstwę informacyjną odnoszącą się do aspektów językowo-komunikacyjnych tekstu. Maszynowe przetworzenie może oznaczać przykładowo: tagowanie morfosyntaktyczne, przypisanie formy podstawowej (lematyzację), podział tekstu na wyrazy (tokenizację), normalizację itp. Ręczne opracowanie to inaczej manualna anotacja/znakowanie/kodowanie prowadzona w celu przypisania fragmentom tekstu informacji niemożliwej do automatycznej detekcji.

Analiza

(jakie informacje można uzyskać z materiału?)

Na etapie analizy informacje przypisane do tekstu w fazie opracowania podlegają ekstrakcji, zgrupowaniu i innym bardziej zaawansowanym procesom, których efektem ma być ich uporządkowanie według określonego klucza. Przykładem funkcji charakterystycznych dla tej fazy może być analiza stylometryczna lub wydobywanie terminologii. Analiza może również przebiegać według zapytań formułowanych indywidualnie przez badacza podczas przeglądania korpusów przy użyciu standardowych wyszukiwarek (np. KonText, Korpusomat).

Dyskusja

(jak interpretować informacje uzyskane z materiału?)

Jest to etap badań, który w tej chwili realizowany jest zupełnie poza infrastrukturą CLARIN. Jest to etap interpretacji merytorycznej danych wytworzonych w poprzednich etapach. Pracownicy CLARIN chętnie udzielą koniecznej pomocy technicznej, jednak interpretacja danych jest zazwyczaj zadaniem całkowicie uzależnionym od dyscypliny reprezentowanej przez badaczy.

Faza badań

Funkcja

Usługi

Analiza

Analiza autorstwa

Analiza

Analiza cech gramatycznych tekstu

Analiza

Analiza emocji, analiza wydźwięku (sentiment analysis)

Opracowanie

Analiza składniowa

Analiza

Analiza stylometryczna

Websty, Verbs

Analiza

Analiza tematyczna (topiczna)

Opracowanie

Anotacja (znakowanie, kodowanie) korpusów

Formowanie

Automatyczna transkrypcja

Analiza

Automatyczne streszczanie tekstów

Formowanie

Czyszczenie tekstów z elementów zbędnych

(DOSTĘP)

Dostęp programistyczny

Analiza

Ekstrakcja informacji z tekstu

Analiza

Grupowanie tekstów

Analiza

Identyfikacja nazw własnych w tekstach

Analiza

Identyfikacja słów kluczowych w tekście

Analiza

Identyfikacja wyrazów obcych w tekście

Analiza

Identyfikacja wyrażeń czasowych

Analiza

Identyfikacja wyrażeń przestrzennych

Analiza

Klasyfikacja tematyczna

Topic, Klasyfikator WKKiN

Opracowanie

Lematyzacja

Formowanie

Normalizacja tekstu

Formowanie

Poprawa interpunkcji

Formowanie

Poprawa pisowni

Analiza

Porównywanie cech charakterystycznych korpusów

ComCorp, WebSty, Verbs, LEM

Analiza

Przeglądanie zawartości korpusów

Formowanie

Przetwarzanie mowy (akustycznej)

Opracowanie

Tagowanie morfosyntaktyczne

Analiza

Tworzenie charakterystyki czasownikowej tekstów

Verbs, LEM

Formowanie

Tworzenie korpusów

Analiza

Tworzenie prostych statystyk (konkordancja, frekwencja, kolokacja)

Opracowanie

Ujednoznacznienie znaczeń leksykalnych (dezambiguacja)

Analiza

Wydobywanie fraz charakterystycznych

Analiza

Wydobywanie jednostek wielowyrazowych

Analiza

Wydobywanie terminologii

Opracowanie

Zarządzanie Metadanymi