Korpusomat

Nazwa

Korpusomat – narzędzie do samodzielnego tworzenia korpusów

Opis

Korpusomat jest narzędziem, służącym do tworzenia własnych elektronicznych korpusów tekstowych, automatycznie anotowanych w warstwie morfosyntaktycznej. Użytkownik może utworzyć korpus z dowolnego zbioru własnych zasobów, przesyłając pliki do Korpusomatu. Samodzielne tworzenie korpusu nie wymaga specjalistycznej wiedzy. Przesłane pliki tekstowe są automatycznie oznakowane fleksyjnie i skompilowane do postaci plików binarnych za pomocą oprogramowania Poliqarp. Powstały w ten sposób zestaw plików – słowniki, indeksy i inne struktury danych – udostępniane są przez Korpusomat w postaci archiwum zip.

Korpusy językowe, które sytuują się na wspólnej płaszczyźnie językoznawstwa korpusowego i technologii komputerowych, są ogromnymi zbiorami tekstów, znajdującymi szerokie zastosowanie m.in. w badaniach korpusowych, językoznawstwie stosowanym czy leksykografii. Korpusy językowe rozumiane są jako kolekcje tekstów, które mają na celu umożliwienie sprawnego wydobywania, klasyfikowania i weryfikowania informacji, dotyczących formalnej struktury języka, a także treści niesionej za jego pośrednictwem. Zastosowanie metod korpusowych przy wykorzystaniu odpowiednich narzędzi oraz cyfrowych baz danych umożliwia znaczne poszerzenie zakresu badań, wyeliminowanie czasochłonnego procesu ręcznej anotacji, prowadzenia manualnych statystyk itp. Przykłady zastosowań analiz korpusowych obejmują obliczanie częstości wystąpień słów, fraz i kolokacji; badanie najczęstszych kontekstów wystąpień słów lub fraz; badanie zmian języka w czasie, przy wykorzystaniu korpusów tekstów historycznych, badanie rzeczywistego wykorzystania języka przez jego użytkowników (korpusy dziedzinowe, korpusy obcojęzyczne).

Adres bibliograficzny publikacji przewodniej (w przypadku użycia Korpusomatu, prosimy o cytowanie tej publikacji):

Link do instrukcji