CLARIN-PL to polskie konsorcjum naukowe, część ogólnoeuropejskiej infrastruktury badawczej CLARIN. Tworzy je sześć jednostek naukowych, w których powstają elektroniczne zasoby językowe i narzędzia do pracy z dużymi zbiorami tekstów w języku polskim.
Infrastruktura CLARIN składa się z sieci centrów, w których:
- powstają podstawy technologiczne i usługi potrzebne do podstawowego funkcjonowania sieci – typ A;
- użytkownikom dostarcza się narzędzi i zasobów związanych z przetwarzaniem języka naturalnego – typ B;
- udostępnia się opisy zasobów (metadane) – typ C;
- użytkownicy otrzymują wsparcie i dostęp do wiedzy oraz ekspertów – typ K.
Podstawowym elementem sieci są centra typu B. Polski węzeł CLARIN – Centrum Technologii Językowych – powstaje na Politechnice Wrocławskiej. Dzięki ścisłemu przestrzeganiu przyjętych standardów zarejestrowani użytkownicy uzyskają za pośrednictwem Centrum CLARIN-PL bezpłatny dostęp do narzędzi i zasobów językowych udostępnionych zarówno w Polsce, jak i w centrach CLARIN pozostałych państw członkowskich.
Celem Centrum Technologii Językowych CL-PL jest uzupełnienie luk w systemie tzw. podstawowych narzędzi i zasobów dla języka polskiego. Dzięki aktywnej współpracy z wybranymi naukowcami z dziedziny nauk humanistycznych i społecznych w Centrum powstaną innowacyjne aplikacje badawcze w dziedzinie e-humanities ukierunkowane na język polski. Docelowo współpraca może objąć także biblioteki cyfrowe, archiwa, muzea, itp.
Zadania Centrum obejmują ponadto:
- budowę repozytorium, w którym zgromadzone narzędzia i zasoby zostaną oznaczone trwałymi identyfikatorami;
- dbanie o techniczną spójność powstającego systemu oraz o przestrzeganie przyjętych standardów, praw dotyczących własności intelektualnej, licencji i zasad etycznych;
- ustanowienie polityki bezpieczeństwa, np. poprzez certyfikację serwerów i odpowiedzialne zarządzanie danymi osobowymi.
Schemat proponowanej architektury dla polskiego centrum typu B
Warstwa aplikacji będzie widoczna bezpośrednio dla użytkownika końcowego. Warstwa usług sieciowych będzie dostarczać możliwości komunikacyjnych pomiędzy centrami i umożliwi dostęp programistyczny do oferowanych przez centrum usług poprzez protokoły SOAP i WSDL. Warstwa zasobów będzie odpowiadać za utrzymanie wielu niezależnych komponentów narzędziowych i ich opisu metadanymi. W warstwie treści będą przechowywane i archiwizowane zasoby językowe (korpusy tekstów, nagrania, teksty przesłane przez użytkowników, itp.).