CLARIN-PL

Zobacz, nad czym pracujemy

CLARIN-PL to polskie konsorcjum naukowe, część ogólnoeuropejskiej infrastruktury badawczej CLARIN. Tworzy je sześć jednostek naukowych, w których powstają elektroniczne zasoby językowe i narzędzia do pracy z dużymi zbiorami tekstów w języku polskim.

Infrastruktura CLARIN składa się z sieci centrów, w których:

  • powstają podstawy technologiczne i usługi potrzebne do podstawowego funkcjonowania sieci – typ A;
  • użytkownikom dostarcza się  narzędzi i zasobów związanych z przetwarzaniem języka naturalnego – typ B;
  • udostępnia się opisy zasobów (metadane) – typ C;
  • użytkownicy otrzymują wsparcie i dostęp do wiedzy oraz ekspertów – typ K.

Podstawowym elementem sieci są centra typu B. Polski węzeł CLARIN – Centrum Technologii Językowych – powstaje na Politechnice Wrocławskiej. Dzięki ścisłemu przestrzeganiu przyjętych standardów zarejestrowani użytkownicy uzyskają za pośrednictwem Centrum CLARIN-PL bezpłatny dostęp do narzędzi i zasobów językowych udostępnionych zarówno w Polsce, jak i w centrach CLARIN pozostałych państw członkowskich.

Celem Centrum Technologii Językowych CL-PL jest  uzupełnienie luk w systemie tzw. podstawowych narzędzi i zasobów dla języka polskiego. Dzięki aktywnej współpracy z wybranymi naukowcami z dziedziny nauk humanistycznych i społecznych w Centrum powstaną innowacyjne aplikacje badawcze w dziedzinie e-humanities ukierunkowane na język polski. Docelowo współpraca może objąć także biblioteki cyfrowe, archiwa, muzea, itp.

Zadania Centrum obejmują ponadto:

  • budowę repozytorium, w którym zgromadzone narzędzia i zasoby  zostaną oznaczone trwałymi identyfikatorami;
  • dbanie o techniczną spójność powstającego systemu oraz o przestrzeganie przyjętych standardów, praw dotyczących własności intelektualnej, licencji i zasad etycznych;
  • ustanowienie polityki bezpieczeństwa, np. poprzez certyfikację serwerów i odpowiedzialne zarządzanie danymi osobowymi.

Schemat proponowanej architektury dla polskiego centrum typu B

Warstwa aplikacji będzie widoczna bezpośrednio dla użytkownika końcowego. Warstwa usług sieciowych będzie dostarczać możliwości komunikacyjnych pomiędzy centrami i umożliwi dostęp programistyczny do oferowanych przez centrum usług poprzez protokoły SOAP i WSDL. Warstwa zasobów będzie odpowiadać za utrzymanie wielu niezależnych komponentów narzędziowych i ich opisu metadanymi. W warstwie treści będą przechowywane i archiwizowane zasoby językowe (korpusy tekstów, nagrania, teksty przesłane przez użytkowników, itp.).