Przeznaczenie programu
Szybko rosnący wachlarz usług, narzędzi i funkcji infrastruktury CLARIN-PL może utrudniać zorientowanie się w jakich zastosowaniach naukowych możemy być przydatni. By przezwyciężyć powyższe trudności oraz te wynikające z nieustabilizowanej terminologii związanej z zastosowaniem maszynowego przetwarzania języka w polskim dyskursie naukowym, przedstawiamy poniżej spis elementów infrastruktury uporządkowany według kryterium funkcjonalności.
Pomocniczym, uproszczonym kryterium podziału funkcjonalnego jest “faza badań“. Postanowiliśmy przypisać poszczególne funkcje naszych narzędzi/usług/aplikacji do jednej czterech faz badań, które można zazwyczaj wyszczególnić podczas pracy z metodami NLP w zastowaniach naukowych (sektor H&SS).
Formowanie
(skąd uzyskać materiał tekstowy?)
Jest to etap poprzedzający właściwe działania badawcze – jego celem jest uzyskanie tekstu w formie takiej, która nadaje się do dalszych etapów maszynowej analizy języka. W praktyce do tego etapu należą takie działania, jak: OCR, transkrypcja tekstów mówionych, ściąganie tekstów z internetu, gromadzenie wpisów z portali społecznościowych itp. CLARIN tylko częściowo wspiera działania w tej fazie badań.
Opracowanie
(jak przygotować materiał?)
W etapie opracowania zgromadzone teksty zostają poddane przetworzeniu maszynowemu lub ręcznemu. W wyniku przetwarzania materiał tekstowy zostaje wyposażony w dodatkową warstwę informacyjną odnoszącą się do aspektów językowo-komunikacyjnych tekstu. Maszynowe przetworzenie może oznaczać przykładowo: tagowanie morfosyntaktyczne, przypisanie formy podstawowej (lematyzację), podział tekstu na wyrazy (tokenizację), normalizację itp. Ręczne opracowanie to inaczej manualna anotacja/znakowanie/kodowanie prowadzona w celu przypisania fragmentom tekstu informacji niemożliwej do automatycznej detekcji.
Analiza
(jakie informacje można uzyskać z materiału?)
Na etapie analizy informacje przypisane do tekstu w fazie opracowania podlegają ekstrakcji, zgrupowaniu i innym bardziej zaawansowanym procesom, których efektem ma być ich uporządkowanie według określonego klucza. Przykładem funkcji charakterystycznych dla tej fazy może być analiza stylometryczna lub wydobywanie terminologii. Analiza może również przebiegać według zapytań formułowanych indywidualnie przez badacza podczas przeglądania korpusów przy użyciu standardowych wyszukiwarek (np. KonText, Korpusomat).
Dyskusja
(jak interpretować informacje uzyskane z materiału?)
Jest to etap badań, który w tej chwili realizowany jest zupełnie poza infrastrukturą CLARIN. Jest to etap interpretacji merytorycznej danych wytworzonych w poprzednich etapach. Pracownicy CLARIN chętnie udzielą koniecznej pomocy technicznej, jednak interpretacja danych jest zazwyczaj zadaniem całkowicie uzależnionym od dyscypliny reprezentowanej przez badaczy.
|