Nad czym pracujemy?

Zadania CLARIN-PL

Tabela przedstawia listę zadań, którymi zajmują się ośrodki partnerskie współdziałające w projekcie CLARIN-PL.

Zadania

Tematy

Ośrodki Partnerskie

A1
A2Budowa Centrum Technologii Językowych

Celem nadrzędnym zadania A2 jest upowszechnienie usług, zasobów i narzędzi przetwarzania języka polskiego dla naukowców z dziedziny nauk humanistycznych i społecznych. Cel ten wymaga budowy Centrum Technologii Językowych – centrum typu B dla polskiej części infrastruktury, zintegrowanego z całą siecią CLARIN. Aby ocenić system w pełnej skali w praktyce, proponowane jest udostępnienie naukowcom możliwie szybko podstawowych usług i rozpoczęcie współpracy nad aplikacjami i narzędziami badawczymi wyższego poziomu.
Ważnym celem Centrum jest także koordynacja konsorcjum CLARIN w Polsce na poziomie technicznym, aby zsynchronizować powstające rozwiązania w spójny system.
Najważniejsze z wymagań to:
• zapewnienie odpowiedniego systemu składowania (inaczej repozytoryjnego) wraz z systemem trwałych identyfikatorów dla zasobów i narzędzi – weryfikowanego regularnie poprzez odpowiednie procedury jakościowe (DSA, 2010), opartego na umowie z CLARIN ERIC i kompatybilnego z wymaganiami zgodności CLARIN (ang. CLARIN compliance seal)
• wsparcie wszystkich specyfikacji CLARIN związanych z przyjętymi standardami, formatami, protokołami oraz interfejsów programowych (APIs);
• udział w narodowej federacji w zakresie identyfikacji oraz usług, koordynowany poprzez centra sieciowo superkomputerowe;
• ścisłe trzymanie się standardów związanych z prawami intelektualnej własności, licencji oraz zasad etycznych;
• ustanowienie polityki bezpieczeństwa, np. poprzez certyfikację serwerów czy zarządzanie danymi osobowymi;
• zarządzanie meta-danymi zgodnie z przyjętymi standardami (np.  ISOcat) i umowami CLARIN;
• udostępnienie naukowcom z dziedziny nauk humanistycznych i społecznych zintegrowanych zasobów i narzędzi przydatnych dla ich badań.
Dodatkowo w ramach CLARIN-PL i Centrum Technologii Językowych został zaprojektowany i wdrożony serwer wyposażony w dużą macierz dyskową o dużym wolumenie danych i szybkości pracy oraz posiadający system archiwizujący. Rozwiązanie serwerowe jest zbudowane w oparciu o zestaw serwerów, z których każdy będzie pełnił odrębną funkcję, tak aby w całości funkcjonowały jako superkomputer. Zainstalowany system operacyjny klastra obliczeniowego jest kompatybilny z systemami Linux.
dr Maciej Piasecki maciej.piasecki@pwr.wroc.pl;
Marcin Pol marcin.pol@pwr.wroc.pl

zamknij...

Politechnika Wrocławska
A3Długoterminowe archiwum danych cyfrowych

W ramach zadania A3 powstaje prototyp archiwum głębokiego, w którym dane cyfrowe będą przechowywane długoterminowo (nawet przez 50 lat), zaś dostęp do niego będzie możliwy tylko na życzenie, a nie on-line. W przeciwieństwie do dostępnych na rynku archiwów podręcznych, archiwum głębokie pozwala na trwałą i bezpieczną archiwizację danych. Jest to możliwe dzięki wbudowanym mechanizmom ochrony fizycznego stanu zapisów oraz samych mediów (możliwość obniżenia poziomu chemicznie aktywnego tlenu, powodującego korozję). Takie rozwiązanie tworzy infrastrukturę informatyczną niezbędną do prowadzenia badań humanistycznych i społecznych. W szczególności pozwoli na długoterminową archiwizację materiałów pisanych, nagrań audiowizualnych, skanów i zdjęć. Archiwum głębokie uzupełni także infrastrukturę CLARIN i pozwoli na wiarygodne przechowywanie danych związanych z projektem.

zamknij...

Polsko-Japońska Wyższa Szkoła Technik Komputerowych
A4Treningowo-testowa baza nagrań mowy polskiej

Celem zadania A4 jest przygotowanie bazy nagrań polskiej mowy. Baza będzie udostępniana bezpłatnie badaczom zajmującym się np. polskim językiem mówionym, strukturą i formą dialogu, fonetyką eksperymentalną, formami społecznej interakcji, itp. Jako element systemów rozpoznawania mowy baza nagrań wspomoże m.in. wyszukiwanie informacji w postaci głosowej (słów kluczowych) czy identyfikację mówców.
Bazę będą tworzyć 3 typy nagrań: a) studyjne nagrania wysokiej jakości mowy (ok. 200 osób, ok. 50 h mowy),
b) nagrania audycji radiowych i telewizyjnych (ok. 50 h mowy:
wywiadów, aktualności, reklam, słuchowisk itp.),
c) dialogi telefoniczne rejestrowane w call center (spontaniczne dialogi w hałaśliwym otoczeniu).

zamknij...

Polsko-Japońska Wyższa Szkoła Technik Komputerowych
A5Korpus tekstów prasowych z lat 1945-1954

Zadanie A5 polega na opracowaniu zbiorów krótkich tekstów prasowych z lat 1945-1954 (docelowo aż do współczesności). Okres ten zostanie podzielony na pojedyncze miesiące, a każdy miesiąc będzie reprezentowany przez zbiór losowo wybranych fragmentów tekstów z najważniejszych gazet i czasopism. Teksty zostaną uporządkowane chronologicznie i opracowane językowo, co pozwoli śledzić zmiany w przedstawianiu rozmaitych zjawisk, zdarzeń i procesów w prasie codziennej. Dzięki powiązaniu ze Słowosiecią możliwe będzie tematyczne przeszukiwanie korpusu poprzez użycie haseł ogólnych (np. FINANSE, WOJNA, NATURA). Baza adresowana jest przede wszystkim do przedstawicieli lingwistyki, antropologii kulturowej, historii i nauk społecznych. Jej celem jest stworzenie narzędzi pracy z trudno dostępnymi zasobami prasowymi, które ze względu na niską jakość papieru ulegają stopniowemu rozkładowi. Korpus tekstów wyposażony będzie w zaawansowane narzędzia analizy chronologicznej i wypełni lukę w zasobach źródeł do badań polszczyzny i historii najnowszej.

zamknij...

Uniwersytet Wrocławski
A6Baza nagrań rozmów

Celem zadania A6 jest opracowanie dużego zbioru języka konwersacyjnego. W tym celu specjalnie przeszkoleni akwizytorzy nagrywają nieformalne rozmowy w naturalnych okolicznościach. Dodatkowo opracowywane są nagrania zebrane już w ramach innych projektów. Transkrypcje rozmów zostają ręcznie naniesione na oś czasu. W efekcie powstanie baza obejmująca ponad 120 godzin rozmów, reprezentujących nieoficjalną polszczyznę mówioną, która różni się istotnie od nagrań powstających w warunkach studyjnych, czy od medialnego języka mówionego. Zebrane dane zostaną opisane wskaźnikami demograficznymi (wiek, płeć, wykształcenie, pochodzenie). Dostęp do bazy będzie umożliwi specjalny system wyszukiwania obsługujący zaawansowane zapytania korpusowe oraz eksplorację i wizualizację danych konwersacyjnych. Baza transkrypcji rozmów zostanie również udostępniona w postaci źródłowej na otwartej licencji. Przewidujemy szerokie zastosowania bazy danych konwersacyjnych w językoznawstwie, socjologii, antropologii i psychologii oraz w badaniach nad dyskursem mówionym czy nad modelowanie komunikacji w okolicznościach nieformalnych.
Piotr Pęzik, piotr.pezik@gmail.com

zamknij...

Uniwersytet Łódzki
A7Baza równoległych tekstów polskich i angielskich

Zadanie A7 polega na przygotowaniu bazy tekstów tłumaczeń w wersjach polskiej i angielskiej, w której oznaczono różne typy odpowiedników tłumaczeniowych w obu wersjach językowych (np. podział, scalenie, wstawienie zdania, pominięcie, zmiana kolejności, itp.). W sumie w bazie znajdzie się ok. 50 milionów segmentów wyrazowych. Z bazy będzie można korzystać za pomocą łatwego w obsłudze systemu wyszukującego. Będzie ona szczególnie przydatna dla porównawczych analiz językowych i kulturowych, a także w polsko-angielskich badaniach lingwistyczno- psychologicznych oraz lingwistyczno socjologicznych.
Piotr Pęzik, piotr.pezik@gmail.com

zamknij...

Uniwersytet Łódzki
A8Korpus tekstów w językach polskim, bułgarskim i rosyjskim

Zadanie A8 polega na zebraniu, opracowaniu i na zrównolegleniu zbioru tekstów w trzech wersjach językowych: polskiej, bułgarskiej i rosyjskiej. Zbiór ten składać się będzie z 6000000 słowoform i będzie zawierał teksty oryginalne i ich tłumaczenia porównane na poziomie poszczególnych zdań, co pozwoli śledzić strategię przekładu. Korpus obejmie zapisane cyfrowo współczesne teksty literackie, publicystyczne, naukowe i specjalistyczne.
Sporządzony ręcznie opis temporalnych i kwantyfikacyjnych znaczeń form czasownikowych, przysłówkowych i imiesłowowych pozwoli dokładnie rozgraniczyć formy językowe od ich znaczeń w wybranych 2000 zdaniach z trzech języków. Tego typu ręczna anotacja semantyczna zostanie zastosowana pierwszy raz w historii lingwistyki komputerowej. Korpus wypełni lukę w słowiańskich lingwistycznych zasobach elektronicznych i stanie się ważnym krokiem ku miarodajnym przekładom ręcznym i maszynowym. Korpus równoległy trzech języków słowiańskich udostępniony w Internecie będzie obsługiwał zapytania różnego rodzaju użytkowników. Będzie przydatnym narzędziem w tworzeniu słowników dwu- i trzyjęzycznych, w badaniach konfrontatywnych prowadzonych przez slawistów i polonistów. Znajdzie zastosowanie w dziedzinie literaturoznawstwa, kulturoznawstwa, socjologii, politologii, historii, komunikacji międzykulturowej i antropologii. Będzie też dużą pomocą dla tłumaczy i terminologów. Korpus równoległy języka polskiego, bułgarskiego i rosyjskiego można będzie również wykorzystywać przy sprawdzaniu programów do tłumaczeń maszynowych. Może on odegrać dużą rolę w dydaktyce nauczania języka ojczystego i języków obcych na różnym poziomie nauczania (w szkole podstawowej, średniej i na wyższych uczelniach).
Violetta Koseska amaz1312@gmail.com;
Wojciech Sosnowski wpsosnow@uw.edu.pl

zamknij...

Instytut Slawistyki Polskiej Akademii Nauk
A9Korpus tekstów w językach polskim i litewskim


Zadania modułu A9 obejmują zebranie, opracowanie i zrównoleglenie powiązanych ze sobą tekstów polskich i litewskich. Licząca docelowo sześć milionów słowoform baza tekstów będzie zawierała zrównoleglone na poziomie zdania teksty literackie, publicystyczne, naukowe i specjalistyczne. Dla dwóch tysięcy zdań (tekstów ciągłych) zostanie przeprowadzony opis temporalnych i kwantyfikacyjnych znaczeń form czasownikowych, przysłówkowych i imiesłowowych, pozwalający dokładnie rozgraniczać formy językowe od ich znaczeń. Ten opis to anotacja semantyczna po raz pierwszy opisana i zastosowana w lingwistyce korpusowej.
Powstający korpus wypełni lukę w bałto-słowiańskich lingwistycznych zasobach elektronicznych, przyczyni się do rozwoju konfrontacji językowej (np. gramatyk), leksykografii (np. słowników) i inżynierii lingwistycznej (np. tłumaczeń maszynowych). Znajdzie zastosowanie jako baza tłumaczeniowa dla języków polskiego i litewskiego. Będzie przydatny w dydaktyce nauczania języka rodzimego jak i obcego.
Korpus zostanie udostępniony w sieci.

Violetta Koseska amaz1312@gmail.com
Roman Roszko roman.roszko@ispan.waw.pl


zamknij...

Instytut Slawistyki Polskiej Akademii Nauk
A10Słowosieć 3.0 – wielki semantyczny słownik języka polskiego

W zadaniu A10 rozbudowujemy wielki słownik polszczyzny - Słowosieć. Jest to słownik szczególny - dla ludzi i komputerów. Komputer dopiero ze Słowosieci może się dowiedzieć, co właściwie znaczą słowa. Naukowcy doszli do wniosku, że najlepiej będzie, jeżeli komputerowi przedstawi się wszystkie znaczenia w postaci sieci wzajemnych powiązań.
Na przykład: tygrys w znaczeniu 'zwierzę' łączy się ze znaczeniem kot 'przedstawiciel kotowatych' relacją RODZAJ-CZEGOŚ (tygrys jest rodzajem drapieżnego kota), zderzak łączy się z samochodem relacją CZĘŚĆ-CAŁOŚĆ, zaś kawaler i żonaty są opisane w Słowosieci jako PRZECIWIEŃSTWA. Oczywiście, wyrazy mają czasem po kilka znaczeń: tygrys ma jeszcze jedno znaczenie, jest to nazwa niemieckiego czołgu z czasów II wojny światowej. W tym znaczeniu tygrys łączy się relacją RODZAJ CZEGOŚ z czołgiem (tygrys jest rodzajem czołgu). W takiej sieci słowa zaczynają dla komputerów coś znaczyć, zaczynają żyć swoim życiem.
Marek Maziarz: mawroc@gmail.com

zamknij...

Politechnika Wrocławska
A11Wielki słownik polsko-angielskich relacji znaczeniowych (połączenie Słowosieci z Princeton WordNet)

Zadanie polega na powiązaniu Słowosieci z Wordnetem Princetońskim. W tym celu łączymy (rzutujemy) synsety Słowosieci z synsetami Wordnetu Princetońskiego na podstawie podobieństwa znaczeń oraz miejsca w strukturze sieci. Synsety łączymy jedną z siedmiu relacji międzyjęzykowych:
· synonimią {kolor 3} - {color1},
· synonimią częściową {pracownia 1} - {workshop 1},
· synonimią międzyrejestrową {angol 1}-{Englishman 1},
· hiponimią {brat cioteczny 1} - 'the son of an aunt'- {cousin 1},
· hiperonimią {palec 1} - {finger 1},
· meronimią {katapulta 2} - {airplane 1},
· holonimią {eskadra lotnictwa taktycznego 1}-{airplane 1}.
W efekcie utworzymy wielką dwujęzyczną bazę danych językowych, łączącą w sobie zarówno zalety słownika oraz tezaurusa dwujęzycznego, jak i sieci leksykalno-semantycznej.
Ewa Rudnicka, email: ewa.rudnicka78@gmail.com

zamknij...

Politechnika Wrocławska
A12Płytki parser semantyczny języka polskiego

Głównym celem zadania jest opracowanie parsera, czyli narzędzia umożliwiającego przeprowadzenie analizy semantycznej tekstu. Wynikiem będzie formalny opis semantyczny tekstu, który będzie zawierał przede wszystkim informację o relacjach pomiędzy elementami występującymi w tekście, np.:
obiekt – to, co jest poddane jakiejś czynności, akcji, procesowi
(przesunięcie pionka, obieranie jajka, posiadanie majątku),
subiekt – wykonawca lub sprawca jakiegoś działania (protest
pracowników, wędrowanie Piotra, wycie wilków, wybuch wulkanu
).
Dodatkowo przeprowadzimy analizę umożliwiającą ujednoznacznienie poszczególnych elementów zdania, tzn. odniesienia ich do pojęć Słowosieci oraz ontologii SUMO.
SUMO (Suggested Upper Merged Ontology) opisuje zależności między elementami świata rzeczywistego, np. Zdanie (Sentence) jest podklasą (subclass) Wyrażenia językowego (Linguistic expression), a mężczyzna (Man) jest podklasą (subclass) Istoty ludzkiej (Human). Wynikiem ujednoznacznienia będzie relacja np. między człowiekiem (jako słowem występującym w tekście) oraz znaczeniem człowiek.1 występującym w Słowosieci. Dostępna będzie także informacja o relacji słowa występującego w tekście: np. człowiek łączy się relacją równoważności z występującym w SUMO pojęciem Human. Parser będzie realizował analizę płytką – jego celem nie jest rozpoznanie pełnej struktury zdania, lecz możliwie trafny opis wybranych elementów struktury semantycznej tekstu. Uwagę skupiamy głównie na frazach rzeczownikowych, które odnoszą się do rzeczywistych bytów i ich własności. Przykład działania parsera:
[Policja] [rozpoczęła] [poszukiwanie[zaginionego człowieka]].
Poszukiwanie zaginionego człowieka to analizowana fraza rzeczownikowa:
poszukiwanie odnosi się do znaczenia poszukiwanie.1 w Słowosieci,
zaginiony odnosi się do znaczenia zaginiony.1 w Słowosieci,
człowiek odnosi się do znaczenia człowiek.1 w Słowosieci.
Przypisane zostaną zależności między elementami zdania a ontologią SUMO:
człowiek – subsumed – Human.
Określone zostaną relacje semantyczne między:
poszukiwanie → człowieka – człowiek jako obiekt poszukiwań,
zaginionego → człowieka – człowiek jest subiektem, wykonawcą,
prowokatorem zaginięcia.
Podstawowym zastosowaniem parsera będzie wykorzystanie go w mechanizmie odpowiadania na pytania jako bazy wiedzy do wydobywania wiedzy o elementach występujących w tekście. Utożsamianie elementów występujących w tekście z ontologią wyższego poziomu może zostać wykorzystane również w systemie streszczania tekstu jako uogólnienie niektórych pojęć.
Paweł Kędzia: paw.kedzia@gmail.com

zamknij...

Politechnika Wrocławska
A13Baza danych składniowo-semantycznych zależności subkategoryzacyjnych

W ramach zadania A13 powstaje baza danych, która będzie zawierała 15 tysięcy predykatów (12 tysięcy rzeczowników oraz 3 tysiące rzeczowników i przymiotników) oraz narzędzia do jej tworzenia i wykorzystania. Predykaty to wyrazy w zdaniu, które otwierają miejsce dla kolejnych wyrazów (argumentów). Np. predykat przywieźć może mieć cztery argumenty: ktoś przywozi komuś coś czymś  Kurier przywozi odbiorcom przesyłki ciężarówką. Predykaty zawarte w bazie będą wyposażone w listę argumentów semantycznych, z którymi mogą się łączyć. Np. szczekać mogą tylko psy, a miauczeć - koty, ale pisać mogą i ludzie, i gazety.
Językoznawcy opracowujący bazę będą korzystać z banku drzew rozbioru gramatycznego zdań, oznaczonych pochodzącymi ze Słowosieci znaczeniami występujących w nich wyrazów. Sama baza będzie pomostem między Słowosiecią (bazą danych leksykalnych) a analizatorem składniowo- semantycznym (zad. A20) i będzie pogłębiać wszelkie zastosowania obu tych narzędzi. Może też zostać zastosowana do oznaczania zależności pomiędzy pojęciami występującymi w tekstach, udostępnianych następnie przez wyszukiwarkę. Obecność w bazie tzw. idiomów otwartych (trzymać mocno/z całych sił kciuki za kogoś) i użyć metaforycznych (góralskie przysłowie mówi, że) pozwoli na badania kulturo- i literaturoznawcze już przez samą analizę materiału zawartego w bazie. Z kolei narzędzia opracowane do tworzenia bazy i manipulowania nią mogą zostać wykorzystane przez użytkowników bez przygotowania informatycznego i językoznawczego do tworzenia baz dziedzinowych. Dzięki temu socjolodzy, psycholodzy, historycy itp. będą mogli posługiwać się nowoczesnymi narzędziami w swojej dziedzinie w formie i zakresie dotychczas dla nich niedostępnych. Ponadto baza może wspomóc systemy automatycznego wydobywania informacji z tekstów, odpowiedzi na pytania oraz streszczania dokumentów.

zamknij...

Instytut Podstaw Informatyki Polskiej Akademii Nauk
A14Program do wyszukiwania jednostek wielowyrazowych w tekstach oraz słownik jednostek wielowyrazowych.

Zadanie skupia się na jednostkach, które należą do słownictwa języka polskiego i składają się z więcej niż jednego wyrazu (jednostki wielowyrazowe). Są to:
• idiomy (np. krokodyle łzy, musztarda po obiedzie, czarna msza),
• terminy/pojęcia z danej dziedziny (np. przestrzeń topologiczna, biblioteka ładowana dynamicznie, kompresor wielopasmowy),
• związki frazeologiczne obecne w słownikach frazeologicznych (np. czarny humor, dać słowo).
Celem zadania jest stworzenie programu, który będzie automatycznie wydobywał jednostki wielowyrazowe z tekstów oraz utworzenie słownika obejmującego 60 000 takich jednostek. Dzięki opracowanym metodom, w przyszłości leksykon jednostek wielowyrazowych będzie rozszerzał się półautomatycznie, pod minimalnym nadzorem człowieka. Dodatkowo każdą jednostkę opiszemy semantycznie i składniowo. Opis składniowy określi stałość/zmienność szyku wyrazów w jednostce, sposób odmiany składników i dodatkowe ograniczenia związane z użyciem (np. że występuje tylko w liczbie mnogiej). Ponieważ jednostki wielowyrazowe są ważnym elementem słownictwa, zostaną umieszczone w Słowosieci i połączone relacjami semantycznymi z innymi wyrazami.
Bernadetta Maleszka: bernadetta.maleszka@pwr.edu.pl


zamknij...

Politechnika Wrocławska
A15Program do wyszukiwania nazw własnych w tekstach oraz słownik polskich nazw własnych

W ramach tego zadania rozwijamy narzędzia i zasoby do automatycznego rozpoznawania i klasyfikowania nazw własnych (jednostek identyfikacyjnych) w tekście. Dotychczasowe narzędzie – Liner2 rozpoznaje 56 kategorii. Obecnie liczba ta wzrośnie do ponad 100 kategorii, rozpoznawanych przez program na podstawie specjalnie oznaczonego korpusu, słownika popularnych jednostek identyfikacyjnych oraz Słowosieci. Klasyfikacja do poszczególnych kategorii będzie polegała na przypisaniu wskazanej jednostki do zbioru synsetów (powiązanie relacją instancja), np. Rudolf Schuster – {osoba, istota ludzka, jednostka},{prezydent}, w oparciu o analizę kontekstów, w których dana nazwa wystąpiła, np. "Rudolf Schuster – polityk słowacki i prezydent tego kraju w latach 1999-2004". Opracujemy także narzędzie do tworzenia dziedzinowych słowników jednostek identyfikacyjnych dla wybranego zbioru dokumentów, np. słownika terminów politologicznych na podstawie tekstów z tej dziedziny.
Michał Marcińczuk: marcinczuk@gmail.com

zamknij...

Politechnika Wrocławska
A16Rozbudowa aplikacji WordnetLoom

Celem zadania jest wzbogacenie aktualnej wersji aplikacji WordnetLoom do rozbudowy Słowosieci o nowe funkcjonalności. WordnetLoom to aplikacja, która w formie grafów przedstawia relacje pomiędzy elementami (synsetami) tworzącymi wordnet. Każdy element w grafie to pojedyncze znaczenie. Krawędź łącząca poszczególny element z innymi określa kierunek oraz typ relacji między dwoma elementami. Podstawowym zadaniem jest oddzielenie warstwy wizualizacji od warstwy logiki aplikacji, co pozytywnie wpłynie na szybkość działania narzędzia.
Aplikacja wzbogacona zostanie o możliwość importu dowolnego WordNetu zapisanego w określonym, wejściowym formacie. Planujemy wdrożenie wielojęzycznej obsługi interfejsu graficznego użytkownika. Usprawnimy wyszukiwanie synsetów/jednostek leksykalnych między innymi o wyszukiwanie wielokryterialne. Ważnym elementem zadania jest również udostępnienie na stronie internetowej Słowosieci wizualizacji synsetów zbliżonej do tej dostępnej w aplikacji WordnetLoom.
Paweł Kędzia: paw.kedzia@gmail.com

zamknij...

Politechnika Wrocławska
A17System do przeszukiwania wielkich baz tekstów opisanych dodatkowymi informacjami

Teksty gromadzone w dużych zbiorach (korpusach) mogą być opisane dodatkowymi informacjami, które dotyczą np.:
~ składni (jakie części mowy w nim występują, jakie funkcje w zdaniu pełnią poszczególne wyrazy, jak się odmieniają);
~ semantyki (w jakim znaczeniu jest użyty dane słowo, które wyrazy mają znaczenie wartościujące);
~ pochodzenia dokumentu (w którym roku powstał tekst, kto jest autorem, jaki to rodzaj źródła).
Celem zadania A17 jest opracowanie technik, które pozwolą przeszukiwać bazy tekstów pod kątem różnych poziomów informacji jednocześnie. W efekcie powstanie system, który umożliwi wydajne wyszukiwanie fragmentów tekstów spełniających jednocześnie różne kryteria określone przez użytkownika. System będzie wyposażony w interfejs dostosowany do potrzeb użytkowników. Będzie uwzględniał różne tryby ich pracy oraz różny poziom przygotowania lingwistycznego i informatycznego. System umożliwi wydobywanie z korpusów bardziej złożonych informacji niż jest to obecnie możliwe. Językoznawcom i kulturoznawcom pozwoli śledzić zmiany zachodzące w języku na przestrzeni czasu, zwłaszcza zmiany znaczeń i konotacji związanych z określonymi wyrażeniami. Historycy, socjolodzy i politolodzy będą mogli uzyskać pełniejszy obraz danej osoby lub zjawiska w społeczeństwie na podstawie określeń wartościujących. System wspomoże też działanie innych narzędzi CLARIN. Znajdzie zastosowanie przy tworzeniu Słowosieci oraz różnego rodzaju słowników i metod automatycznego znakowania.

zamknij...

Instytut Podstaw Informatyki Polskiej Akademii Nauk
A18Zespół narzędzi do przetwarzania nagrań mowy

W obrębie zadania A18 powstaną narzędzia, które zapewnią dostęp do nagrań mowy gromadzonych w CLARIN. Obecnie nie ma dla języka polskiego narzędzi, które pozwalałaby przetwarzać i analizować takie nagrania.
Opracowywane narzędzia umożliwią przede wszystkim:
~ wyszukiwanie słów/fraz w zbiorach nagranej mowy,
~ podział dźwięku na fragmenty wypowiadane przez poszczególne osoby,
~ przekształcenie zapisu ortograficznego na fonetyczny,
~ wykrywanie różnych typów zdarzeń w nagraniach (mowa, muzyka, hałas, itp.).

zamknij...

Polsko-Japońska Wyższa Szkoła Technik Komputerowych
A19Narzędzia do analizy tekstów dziedzinowych

Teksty dziedzinowe (specjalistyczne) różnią się od tekstów prasowych bądź literackich specyficznym słownictwem (nazwami teorii, technologii, narzędzi), a czasem wręcz całymi konstrukcjami gramatycznymi. Zawierają także skróty, które w zależności od dziedziny można różnie interpretować.
Przykładowo skrót kl. może oznaczać klasę, klasyfikację, kleryka lub klasztor. Specyficzne słownictwo oraz sposób przekazywania informacji sprawiają, że dla tekstów dziedzinowych konieczne jest dostosowanie narzędzi językowych, które obecnie najlepiej sprawdzają się w pracy z tekstami pochodzącymi z gazet, periodyków czy prozy.
W ramach zadania A19 powstanie zestaw narzędzi, które będzie można łatwo przystosować do nowych dziedzin i które poradzą sobie nawet z tekstami niestarannie opracowanymi (np. z literówkami, uciętymi zdaniami). Ważnym elementem takiego systemu będzie słownik dla wybranej dziedziny zawierający wyrazy, które nie należą do słownictwa ogólnego oraz słownik wyrażeń wielowyrazowych.
Słowniki terminologiczne i narzędzia rozpoznające jednostki nazewnicze są niezbędne do przeszukiwania dużych zbiorów tekstowych, oznaczania tekstów informacjami dziedzinowymi oraz do tworzenia systemów zapytań. Słownik terminologiczny może służyć np. do wyszukania w Internecie (bardzo dużym zbiorze) tekstów należących do wybranej dziedziny, a więc zawierających odpowiednio wiele słów specjalistycznych, a następnie podzielenie ich na podgrupy zawierające terminy silnie ze sobą powiązane.

zamknij...

Instytut Podstaw Informatyki Polskiej Akademii Nauk
A20 System do głębokiej analizy składniowo-semantycznej tekstów

Celem zadania A20 jest opracowanie narzędzia do głębokiej analizy składniowo-semantycznej. W odróżnieniu od płytkiej analizy, w wyniku której program rozpoznaje tylko wybrane elementy struktury zdania (np. grupę rzeczownika), analiza głęboka pozwala w pełni opisać strukturę zdań oraz role, jakie pełnią poszczególne elementy. Obecnie dostępne narzędzia zostaną ulepszone w kierunku analizy tekstów niepreparowanych, tzn. takich, które nie były wcześniej porządkowane i ujednoznaczniane fleksyjnie.
Opracowany parser będzie konstruował pełne rozbiory składniowo- semantyczne i uwzględniał takie zjawiska jak np. elipsa, koordynacja, swobodny szyk. Będzie solidną podstawą do dalszego przetwarzania języka, np. wydobywania informacji z tekstów i tłumaczenia maszynowego. W odróżnieniu od wyszukiwarek typu Google, które wyszukują informacje na podstawie występowania danych słów kluczowych, semantyczna analiza tekstów umożliwi wyszukiwanie na podstawie sensu pytania i sensu tekstu.

zamknij...

Instytut Podstaw Informatyki Polskiej Akademii Nauk
A21System do rozpoznawania i analizy struktury informacyjnej tekstów w języku polskim

Celem zadania jest opracowanie kompleksowego narzędzia, które umożliwi rozpoznanie rozproszonych w tekście informacji odnoszących się do:
~ obiektów – osób, organizacji, miejsc, przedmiotów, itp.;
~ związków – powiązań między obiektami, np. tożsamości nazw, przynależności osoby do organizacji, autorstwa, położenia obiektów w przestrzeni;
~ sytuacji – informacji o tym, kto, co, komu, gdzie i kiedy zrobił.
Obecnie rozszerzamy i poprawiamy rozpoznawane typy powiązań. Skupiamy się przede wszystkim na relacjach czasowych (kiedy coś się stało) i przestrzennych (gdzie ktoś/coś się znajduje: „bank znajduje się na przeciwko parku”). Opracowane narzędzie będzie służyło przetwarzaniu tekstów w języku polskim.
Jan Kocoń: janekkocon@gmail.com
Michał Marcińczuk: marcinczuk@gmail.com

zamknij...

Politechnika Wrocławska
A22Program do wydobywania z tekstów informacji semantyczno-
pragmatycznych

Celem zadania jest opracowanie systemu do wydobywania informacji semantyczno pragmatycznych z dokumentów tekstowych, dotyczących przede wszystkim relacji między fragmentami tekstów, np. między zdaniami:
~ dwa fragmenty tekstu są ze sobą tożsame, np.
◦ Fragment 1: Operacja objęła głównie Gazę oraz, w mniejszym stopniu, Chan Junis i Rafah.
◦ Fragment 2: Operacja objęła głównie Gazę oraz, w mniejszym stopniu, Chan Junis i Rafah.
~ dwa fragmenty tekstu są sobie przeciwstawne, np.:
◦ Fragment 1: Awaria w 137 sekundzie lotu oznacza najpewniej, że zawiódł 1. stopień rakiety, produkcji rosyjskiej.
◦ Fragment 2: Spekuluje się, że mogło dojść do niekontrolowanego
oddzielenia się członów rakiety i przedwczesnego zapłonu silnika 2. stopnia.
~ jeden fragment tekstu jest uszczegółowieniem drugiego, np.:
◦ Fragment 1: Ponadto kryterium społeczne ma brać pod uwagę fakt, że poszczególne warianty będą przecinały pola uprawne lub będą zlokalizowane w pobliżu domów.
◦ Fragment 2: Na drugim posiedzeniu "okrągłego stołu" strony będą rozmawiać na temat kryteriów, które powinny być rozpatrywane przy wyborze wariantu przebiegu obwodnicy. Ponadto prace w obrębie zadania A22 dotyczą również konstrukcji narzędzi do wydobywania z tekstu słów kluczowych i automatycznego streszczania dokumentów tekstowych. Opracowanie systemu wydobywającego słowa kluczowe i rozpoznającego strukturę dokumentu przyniesie duży zysk z punktu widzenia pozostałych elementów infrastruktury CLARIN-PL, ponieważ pozwoli na szybką analizę istotnych dokumentów i ich fragmentów. Automatyczne streszczanie znajdzie zastosowanie jako narzędzie pozwalające na szybkie przeglądanie dokumentów – co samo w sobie jest niezwykle użyteczne dla pracowników naukowych z dziedzin humanistycznych i społecznych. Poza tym pozwoli na uszeregowanie fragmentów dokumentów pod kątem istotności dla pracownika naukowego.
Paweł Kędzia: paw.kedzia@gmail.com

zamknij...

Politechnika Wrocławska
A23Program do tematycznej klasyfikacji tekstów polskich i angielskich

W ramach zadania A23 powstaje program klasyfikator, czyli specjalny program komputerowy, który będzie umożliwiał automatyczne oznaczanie tekstów polskich i angielskich kategoriami tematycznymi. Zbiór kategorii tematycznych będzie oparty na Wikipedii jako największej i najbardziej aktualnej, otwartej encyklopedii wielojęzycznej. Klasyfikator udostępnimy jako niezależną usługę sieciową. Dodatkowo rozwiązanie to zostanie zastosowane do klasyfikacji tekstów zgromadzonych w Narodowym Korpusie Języka Polskiego oraz Brytyjskim Korpusie Narodowym, dzięki czemu możliwe będzie dodanie opcji wyszukiwania tematycznego (a nie tylko lingwistycznego) dla tych zbiorów. Na przykład użytkownik zainteresowany tematem aborcji może sformułować zapytanie lingwistyczne o wszystkie odmiany słowa 'aborcja', ale dodatkowo będzie też mógł określić, jaki kontekst tematyczny wystąpienia tego słowa go interesuje (np. aborcja w kontekście teologii katolickiej albo aborcja w kontekście hiszpańskiego prawa). Co więcej, możliwe będzie porównanie oznaczonych kategorii w podobnych tekstach napisanych w  różnych językach (polskim i angielskim). Dzięki temu językoznawcy, badacze kultury i komunikacji międzykulturowej, socjolodzy oraz politolodzy będą mogli automatycznie zawęzić korpusową analizę dyskursu w danym języku do konkretnych kategorii tematycznych.
Piotr Pęzik: piotr.pezik@gmail.com

zamknij...

Uniwersytet Łódzki
A24