Rada Programowa CLARIN-PL

Rada została powołana zgodnie z zaleceniem Ministerstwa Nauki i Szkolnictwa Wyższego i ma charakter doradczy. Jej zadaniem ma być wskazywanie nowych kierunków badań CLARIN-PL oraz ocena stanu bieżącego infrastruktury z perspektywy zastosowań w naukach humanistycznych i społecznych.

Skład Rady:

prof. dr hab. Marek Jeziński
Uniwersytet Mikołaja Kopernika

prof. dr hab. Kazimierz Wolny-Zmorzyński
Uniwersytet Warszawski

prof. dr hab. Jerzy Bartmiński
projekt EUROJOS

dr hab. Marek Troszyński
Instytut Badań Literackich PAN

prof. dr hab. Włodzimierz Gruszczyński
Uniwersytet SWPS

dr hab. Joanna Rączaszek-Leonardi
Instytut Psychologii PAN

dr hab. Kazimierz Krzysztofek, prof. Uniwersytetu SWPS
Uniwersytet SWPS

Warsztaty: CLARIN Workshop – Towards Interoperability of Lexico-Semantic Resources

Zapraszamy na warsztaty w Tartu: CLARIN Workshop (type I) – Towards
Interoperability of Lexico-Semantic Resources
31st January – 1st February 2017

Call for Participation in CLARIN Workshop (type I) — Towards Interoperability of Lexico-Semantic Resources
The goal of the workshop is to improve the interoperability, usability and ease of access of CLARIN lexico-semantic resources. To achieve this goal, we will work on the design of CLARIN open virtual lexical platform facilitating better access to lexical resources and research web applications by Humanities & Social Sciences (H&SS) users. The workshop will have a discussion and group-work based character. Most of the time is reserved for chaired discussions in small topic-related subgroups, concluded with reports presented to the general forum by their chairs during the summing-up session.
Researchers interested in the participation in the workshop should send a letter to the following address: clarin-pl@pwr.edu.pl — including a description of interest:
1. Short description of the background of the applicant, especially related to the workshop goal and topics. If an applicant comes from an institution which is a member of CLARIN, this should be clearly expressed.
2. Description of the motivation for the participation in the workshop.
The description should be approximately 500 words.
The deadline for submission is December 5th 2016. Decisions concerning acceptance will be sent by December 8th 2016.

The workshop is sponsored by CLARIN. Accommodation during the workshop (including one night in a university hostel) is covered. Partial reimbursement of travel costs up to 200 Euros will be offered to all participants.
The maximum capacity is limited to 25 persons who will be selected by PC on the basis of the delivered descriptions of interest. Priority will be given to participants from the CLARIN members (www.clarin.eu).

Workshop Short Description

Name workshopCLARIN Workshop (type I) -- Towards Interoperability of Lexico-Semantic Resources
TypeI: Thematic workshop (no follow-up implementation project envisaged)
Programming CommitteeMaciej Piasecki, Wrocław University of Science and Technology,
Erhard Hinrichs, Eberhard-Karls-Universität Tübingen
Kadri Vider, University of Tartu, CELR
LocationCELR, University of Tartu, Tartu, Estonia
Dates31st January (9 a.m. opening) - 1st February 2017 (1 p.m. closing)
SummaryThe goal of the workshop is to improve the interoperability, usability and ease of access of CLARIN lexico-semantic resources in order to build a CLARIN open virtual lexical platform facilitating better access to lexical resources by Humanities & Social Sciences (H&SS) users and research web applications.
The topics will include:
the choice of a few common formats for CLARIN lexico-semantic resources (LSR);
the design of a system of web services for accessing CLARIN LSRs,
the common virtual platform for linking, displaying and browsing LSRs;
gathering requirements from H&SS related to LRSs and the platform.
The outcome will be an integrated report with an action plan that will be offered to the wider CLARIN community for further discussion, testing and refinement. The workshop is planned for 3 invited experts and up to 25 participants in total.

Full Description
Workshop goal
The main goal of the workshop is to initiate the works on the improvement of interoperability, usability and ease of access of CLARIN LRSs for the needs of a their better visibility for H&SS users and their enhanced utilization in research applications. The key idea is to coordinate development of a system of web services for accessing LRSs and a common virtual lexical platform built on the top of them. The platform is intended to be an open generic solution that will allow for effective linking, displaying and browsing of the rich variety of data included in CLARIN LRSs. One of the functions of the platform will be a kind of federated search for LRSs. The platform will be an open solution with potentially many installations and many web application based on them.

The main topics will include:

1. the choice of a few common formats for CLARIN lexico-semantic resources (LSR);
2. the design of a system of web services for accessing CLARIN LSRs,
3. the common virtual platform for linking, displaying and browsing LSRs;
4. gathering requirements from H&SS related to LRSs and the platform.

The outcome of the workshop will be an integrated report with an action plan for each of the key topics discussed in the working groups. It will be next offered to the wider CLARIN community for further discussion, testing and refinement. The first, limited set of standards and requirements will be selected for further work. As a follow up we will also prepare a joint proposal of CLARIN type II workshop devoted to the construction of a first set of web services for accessing selected LRSs and a first prototype of the platform. The platform development is planned to be a collaborative work, but CLARIN-PL is prepared for serve as the main developer due to a similar goal in its action plan.

Link to CLARIN strategic priorities
The topics of the workshop are closely related to several CLARIN strategic pillars (cf. CE-2015-0657), namely:
integration of data – the common format and strategy of integration will form the basis for the interoperable multifaceted resources and will thus enable “the development of tools that allow for mapping between different standards”
integration of services – the common platform and system of web services will simplify providing multilingual web services for semantic annotation, exploration, exploitation, enhancement, analysis, manipulation and visualization of language data; support for mono- and multilingual processing workflows,
ease of access – the common platform and system of web services will simplify access to different types of lexico-semantic resources. They will will enhance multilingual browsing and visualization services.
crossing borders – the common format, platform and strategy of integration will facilitate crossing borders between languages, countries, and infrastructures; “international collaboration both at the RI and at the thematic level”.

Profile of proposing team
Maciej Piasecki is an Associated Professor at Wrocław University of Science and Technology and a coordinator of the G4.19 Computational Linguistics and Language Technology Research Group. He holds PhD in Computer Science for work on Natural Language Processing. Maciej has been the leader of the Polish wordnet project since its beginning in 2005 till now. Maciej’s main research topics are: extraction of the lexico-semantic knowledge from corpora, semi-automatic wordnet expansion, Distributional Semantics and relational lexical semantics. Maciej has been also working on morpho-syntactic processing of Polish (co-author of the first Polish tagger), Information Extraction, formal semantics and Machine Translation.
Erhard Hinrichs is a Full Professor (Ordinarius) for General and Computational Linguistics, Eberhard-Karls-Universität Tübingen, Seminar für Sprachwissenschaft, Tübingen, Germany, 1991 – present. He obtained Ph.D., Linguistics from The Ohio State University, Columbus, Ohio, USA. August 1985. He has been the leader of the GermaNet project since it beginning till now. Erhard Hinrichs is CLARIN National Coordinator of Germany.
Kadri Vider is a researcher of Language Technology at Institute of Computer Sciences in University of Tartu. She managed studies of Estonian Wordnet till 2007 when she started to work in Estonian Ministry of Education and Research arranging Estonian membership in CLARIN infrastructure also. Since coming back into University of Tartu in 2011 she manages Center of Estonian Language Resources – a research infrastructure consortium executing obligations of membership of Estonia in CLARIN ERIC. Kadri Vider is CLARIN National Coordinator of Estonia.

Indication of profile(s) and number of envisaged participants
We would like to bring together key wordnet developers from CLARIN, researches with experience in wordnet applications, as well as selected experts from the area of linking wordnets and lexical semantics technology from outside CLARIN. The external experts are meant to provide reference points facilitating the discussions during the workshop.

Participants from CLARIN will be selected on the basis of descriptions of interest collected in an open call. However, we will work on obtaining good coverage with respect to CLARIN wordnets and the workshop topics. We aim at 2 invited plenary talks. The rest of places will be open to moderated discussions and collaboration in working groups. We expect up to 25 participants for 2 days.

Workshop date(s), location and timetable
The workshop will be hosted by the Institute of Computer Science, University of Tartu, Estonia and will last for 2 days starting at 9 a.m. on 31st January and finishing at 1 p.m. on 1st February.

Provisional agenda
The core of the workshop will be chaired parallel working group meetings, each devoted to one of the key topics. They will start with short presentations of (selected) speakers, addressing questions included in the CfP. Presentations will be followed by extensive discussions. Their results will be consolidated into reports and action plans. The working group meetings will be preceded by 1-2 invited plenary talks focused on the experience related to the workshop topics. The workshop will close with the plenary session during which chairs of all the working groups will present their reports and action plans that will be subject to a general discussion. It will be next offered to the wider CLARIN community for further discussion, testing and refinement.

Program Committee:

Maciej Piasecki
Erhard Hinrichs
Kadri Vider

Invited Experts (confirmed so far):
Francis Bond – author of the Open Multilingual WordNet
Christiane Fellbaum – Princeton WordNet

25 – 27 kwietnia 2016, Wrocław


Biblioteka Główna i Ośrodek Informacji Naukowo-Technicznej

Politechniki Wrocławskiej

Politechnika Wrocławska, bud. D-21, pl. Grunwaldzki 11



pracownicy naukowi Politechniki Wrocławskiej, Instytutu Podstaw Informatyki PAN, Instytutu Slawistyki PAN, Polsko-Japońskiej Akademii Technik Komputerowych, Uniwersytetu Łódzkiego, Uniwersytetu Wrocławskiego oraz gościnnie

Instytutu Badań Literackich PAN

dr hab. Elżbieta Hajnicz, prof. IPI PAN, dr Wojciech Jaworski (IPI PAN), mgr inż. Paweł Kędzia (PWr), mgr inż. Jan Kocoń (PWr), prof. dr hab. Krzysztof Marasek (PJATK), dr Małgorzata Marciniak (IPI PAN), dr inż. Michał Marcińczuk (PWr), dr Marek Maziarz (PWr), dr Marcin Oleksy (Pwr), dr Agnieszka Patejuk (IPI PAN), prof. dr hab. Adam Pawłowski (UWr), dr Piotr Pęzik (UŁ), dr inż. Maciej Piasecki (PWr), mgr inż. Marcin Pol (PWr), dr hab. Roman Roszko, prof. IS PAN, dr Ewa Rudnicka (PWr), dr inż. Tomasz Walkowiak (PWr), dr Marcin Woliński (IPI PAN), mgr Aleksandra Wójtowicz (IBL PAN), mgr Bartosz Zaborowski (IPI PAN), dr hab. Monika Zaśko-Zielińska (UWr)


CLARIN-PL (http://clarin-pl.eu) to polskie konsorcjum naukowe będące częścią ogólnoeuropejskiej infrastruktury badawczej CLARIN (Common Language Resources & Technology Infrastructure) (http://clarin.eu). CLARIN udostępnia elektroniczne zasoby językowe oraz narzędzia do automatycznego przetwarzania języka przydatne w badaniach opartych na gromadzeniu i analizie dużych ilości tekstowych materiałów źródłowych.

W imieniu całego zespołu CLARIN-PL zapraszamy serdecznie do udziału w konferencji, podczas której podsumujemy prace prowadzone w ciągu ostatnich trzech lat w ramach konsorcjum oraz zaprezentujemy obecny stan polskiej części infrastruktury badawczej CLARIN. Przedstawimy m.in. narzędzia do badań nad tekstem, narzędzia do analizy rejestru konwersacyjnego i zapisów mowy, narzędzia do budowania, anotowania i analizy korpusów językowych, narzędzia słownikowe oraz narzędzia do analizy stylometrycznej i klasyfikacji tekstu. Przedstawimy ponadto zasoby językowe, które zostały wytworzone i udostępnione jako element infrastruktury CLARIN, w tym korpusy jedno- i wielojęzyczne, a także metody ich wykorzystania w pracy humanisty. Pokażemy zarówno same zasoby, narzędzia i systemy CLARIN-PL, jak również omówimy krótko podstawy teoretyczne ich budowy oraz możliwe zastosowania w badaniach.

Jako wydarzenie towarzyszące dzień po konferencji odbędzie się uroczysta premiera nowej Słowosieci 3.0 emo. Słowosieć – wordnet języka polskiego będący połączeniem elektronicznego tezaurusa z rozbudowaną siecią relacji leksykalno-semantycznych – jest pod względem wielkości największym na świecie słownikiem elektronicznym tego typu. Tworzy pajęczynę około 179 000 wyrazów, 260 000 różnych znaczeń – połączonych ponad 600 000 relacji leksykalno-semantycznych. Słowosieć 3.0 emo zawiera również ręcznie wykonany opis ponad 31 000 znaczeń leksykalnych w kategoriach skojarzonych podstawowych uczuć, wartości fundamentalnych oraz polaryzacji nastawienia emocjonalnego. Słowosieć 3.0 emo zostanie oficjalnie udostępniona na całkowicie otwartej licencji (wzorowanej na licencji amerykańskiego WordNetu z Uniwersytetu w Princeton).

Jednocześnie chcielibyśmy zaprezentować enWordNet 1.0, czyli zbudowane przez nas rozszerzenie WordNetu 3.1 o ponad 10 000 nowych znaczeń leksykalnych. Słowosieć 3.0 emo w połączeniu z enWordNet 1.0 stanowi największy zasób dwujęzyczny tego typu na świecie i największy publicznie dostępny słownik polsko-angielski.

Serdecznie zapraszamy wszystkich naukowców, których interesuje wykorzystanie nowych metod, technik i narzędzi w praktyce badawczej. Narzędzia i zasoby CLARIN-u będą przydatne w takich zadaniach związanych z przetwarzaniem języka, jak np. automatyczne streszczanie tekstów, wyszukiwanie w tekstach nazw własnych i słów kluczowych czy analiza składniowa i morfologiczna. Narzędzia i zasoby językowe powstające w CLARIN-PL otwierają nowe możliwości w polskich badaniach socjologicznych, kulturoznawczych, medioznawczych, politologicznych, historycznych, literaturoznawczych i językoznawczych oraz w pracach leksykograficznych i translatologicznych.

Udział w konferencji CLARIN-PL i premierze Słowosieci jest bezpłatny. Jednak osoby zainteresowane udziałem w warsztatach prosimy o zarejestrowanie się poprzez formularz do dnia 20 kwietnia. Liczba miejsc jest ograniczona, dlatego bardzo prosimy o podanie adresu e-mail. Będziemy potwierdzać przyjęcia zgłoszeń w ciągu jednego dnia.



PONIEDZIAŁEK 25 kwietnia


10:30 – 13:15: Infrastruktura naukowa technologii językowych, narzędzia korpusowe: korpusy konwersacyjne i równoległe

13:15 – 14:15: Obiad

14:15 – 18:15: Narzędzia do badań nad tekstami dziedzinowymi, słownik walencyjny języka polskiego, automatyczna analiza składniowa zdań języka polskiego, system do przeszukiwania anotowanych korpusów tekstu

19:00 – 22:00: Kolacja i otwarte spotkanie dyskusyjno-towarzyskie

WTOREK 26 kwietnia

9:00 – 13:30: Narzędzia do analizy mowy, korpusy mowy, otwarty korpus języka polskiego o wielowarstwowej anotacji, systemy do budowania, anotowania i przeszukiwania korpusów, automatyczna anotacja tekstu, system korpusu chronologicznego, równoległe korpusy wielojęzyczne

13:30 – 14:30: Obiad

14:30 – 18:15: Zasoby semantyki leksykalnej, narzędzia do analizy semantycznej tekstów i klasyfikacji semantycznej tekstów, zastosowania CLARIN-PL w badaniach, system do automatycznego wykrywania odniesień geograficznych

ŚRODA 27 kwietnia

Premiera Słowosieci 3.0 emo i enWordNet 1.0

10:30 – 12:15: Proces tworzenia Słowosieci i osiągnięty stan, zasady opisu przymiotników i przysłówków, wielowyrazowe jednostki leksykalne w Słowosieci,

12:15 – 12:30: Przerwa kawowa

12:30 – 14:00: Opis w zakresie podstawowych uczuć, wartości fundamentalnych oraz polaryzacji nastawienia emocjonalnego, rzutowanie Słowosieci na angielski Princeton WordNet, enWordNet – rozszerzony wordnet języka angielskiego

14:00 – 15:00: Obiad

15:00 – 16:15: Rzutowanie Słowosieci na ontologię i inne zasoby semantyczne, metody udostępniania Słowosieci, formaty i zastosowania Słowosieci i całego systemu zasobów leksykalnych



PONIEDZIAŁEK 25 kwietnia

10:30 – 11:00 Nieformalna kawa powitalna

11:00 – 11:15 Powitanie

Infrastruktura naukowa

11:15 – 11:45 Wykład

CLARIN – infrastruktura naukowa technologii językowych
prowadzący: dr Maciej Piasecki


W ramach wystąpienia zostanie zaprezentowana idea europejskiej infrastruktury badawczej technologii językowych ukierunkowanej na zastosowania w dziedzinach nauk humanistycznych i społecznych. Omówimy rozproszoną strukturę infrastruktury CLARIN ERIC, funkcje oferowane na poziomie centralnym oraz rolę centrów CLARIN w ramach całej struktury.

prezentacja: clarin-infrastruktura.pdf

11:45 – 12:15 Wykład

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi
prowadzący: mgr inż. Marcin Pol, dr inż Tomasz Walkowiak


Centrum Technologii Językowych CLARIN-PL, uruchomione na Politechnice Wrocławskiej, jest węzłem ogólnoeuropejskiej infrastruktury CLARIN ERIC, adresowanej do badaczy nauk humanistycznych i społecznych.  Celem wykładu jest przegląd usług udostępnianych użytkownikom przez CLARIN-PL oraz pokazanie, w jaki sposób mogą oni wykorzystać Centrum do deponowania i archiwizacji własnych zasobów językowych (np. korpusów, słowników). Omówiony zostanie system uwierzytelniania federacyjnego oraz architektura konfigurowalnych torów przetwarzania.

prezentacja: ctj.pdf

Narzędzia korpusowe

12:15 – 12:45 Wykład

Narzędzia i zasoby do analizy rejestru konwersacyjnego polszczyzny
prowadzący: dr Piotr Pęzik


W referacie przedstawione zostaną opracowane korpusy polszczyzny konwersacyjnej-niformalnej. Szczególna uwaga poświęcona zostanie opracowanej w ramach projektu CLARIN-PL wyszukiwarce Spokes PL (Pęzik 2015), która umożliwia szybkie przeszukiwanie w/w korpusów i eksport transkrypcji i nagrań dowolnych podzbiorów na podstawie kryteriów lingwistycznych i metadanych. Wyszukiwarka Spokes jest dostępna pod adresem: http://spokes.clarin-pl.eu.

prezentacja: pezik_spokes.pdf

12:45 – 13:15 Wykład

Korpusy referencyjne i równoległe w warsztacie i dydaktyce tłumaczenia
prowadzący: dr Piotr Pęzik


W wystąpieniu omówione zostaną przykładowe zastosowania wyszukiwarek dla korpusów referencyjnych Narodowego Korpusu Języka Polskiego (http://pelcra.clarin-pl.eu/NKJP/) i British National Corpus (http://pelcra.clarin-pl.eu/SlopeqBNC/), a także wyszukiwarki polsko-angielskich tekstów równoległych (http://paralela.clarin-pl.eu) w praktyce i dydaktyce tłumaczenia.

prezentacja: ref_par.pdf

13:15 – 14:15 Obiad

Narzędzia do badań nad tekstem

14:15 – 15:15 Wykład

Narzędzia słownikowe dla języka polskiego:

Morfeusz2 (analizator morfologiczny), TermoPL (ekstrakcja terminologii), Toposław (słownik jednostek wielowyrazowych) oraz inne narzędzia

prowadzący: dr Marcin Woliński, dr Małgorzata Marciniak


W ramach prezentacji przedstawimy  analizator morfologicznego Morfeusz 2.0. Omówimy rozszerzenia i udogodnienia w stosunku do wcześniejszej wersji programu oraz  przedstawimy narzędzie Kuźnia do tworzenia własnych słowników. Następnie zaprezentujemy  narzędzie Termo.PL służące  do ekstrakcji terminologii dziedzinowej z tekstów polskich. Wydobyte przy jego pomocy  frazy mogą służyć do tworzenia słownika odmiany terminów wielowyrazowych.  Do  jego opracowania  służy program Toposław, który omówimy na koniec prezentacji.

prezentacja: morfeusz2.pdf

15:15 – 15:45 Wykład

Słownik walencyjny języka polskiego Walenty – składnia

prowadzący: dr hab. Elżbieta Hajnicz, prof. IPI PAN


Walenty to zaawansowany słownik walencyjny języka polskiego rozwijany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN). Słowniki walencyjne zawierają informację w jaki sposób predykaty (np. czasowniki) wiążą się ze swoimi argumentami, np. czasownik  sprzedawać wymaga nie więcej niż czterech argumentów (ktoś sprzedaje coś komuś za ileś). W Walentym informacja walencyjna jest reprezentowana na dwóch poziomach. Na poziomie składniowym “sprzedawać” wymaga podmiotu rzeczownikowego w przypadku strukturalnym (ktoś), dopełnienia rzeczownikowego w przypadku strukturalnym (coś), frazy rzeczownikowej w celowniku (komuś) oraz frazy przyimkowej (za ileś).

prezentacja: walenty-wr.pdf

15:45 – 16:15 Wykład

Słownik walencyjny języka polskiego Walenty – semantyka

prowadzący: dr hab. Elżbieta Hajnicz, prof. IPI PAN


Walenty to zaawansowany słownik walencyjny języka polskiego rozwijany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN). Słowniki walencyjne zawierają informację w jaki sposób predykaty (np. czasowniki) wiążą się ze swoimi argumentami, np. czasownik  sprzedawać wymaga nie więcej niż czterech argumentów (ktoś sprzedaje coś komuś za ileś). W Walentym informacja walencyjna jest reprezentowana na dwóch poziomach. Na poziomie semantycznym argumenty są identyfikowane za pomocą ról semantycznych; dla sprzedawać są to: Initiator  (ktoś),  Theme  (coś), Recipient (komuś) i Measure (za ileś). Ponadto możliwe jest narzucenie dodatkowych ograniczeń zwanych preferencjami selekcyjnymi: osoba sprzedaje pewne dobra innej osobie za pewną sumę pieniędzy.

prezentacja: walenty-wr.pdf

16:15 – 16:30 Przerwa kawowa

16:30 – 17:00 Wykład

Świgra: parser składnikowy języka polskiego

prowadzący: dr Marcin Woliński

Świgra jest automatycznym analizatorem składniowym (parserem) języka polskiego, rozwijanym w Instytucie Podstaw Informatyki PAN. Program generuje dla zdań polskich reprezentacje składniowe w postaci drzew składnikowych. Liście drzewa reprezentują tekst wejściowy, a pozostałe węzły — frazy różnych poziomów. Wszystkie węzły niosą informacje o ich cechach gramatycznych. Tworzone drzewa są dość czytelne i intuicyjnie zrozumiałe, ale jednocześnie są bogate informacyjnie. W obecnej postaci Świgra uwzględnia tylko fakty składniowe, bez odwołań do semantyki.

Gramatyki języków naturalnych są z natury silnie niejednoznaczne, dlatego Świgra zawiera statystyczny komponent wybierający najbardziej prawdopodobne drzewo dla zdania.

prezentacja: swigra2.pdf

17:00 – 17:45 Wykład

POLFIE: gramatyka LFG języka polskiego i bank struktur LFG

prowadzący: dr Agnieszka Patejuk


Prezentacja będzie poświęcona automatycznej analizie składniowej zdań przy pomocy POLFIE – gramatyki języka polskiego opartej na formalizmie LFG (Lexical Functional Grammar), rozwijanej w Instytucie Podstaw
Informatyki PAN (IPI PAN). Zostaną przedstawione podstawowe informacje o LFG, struktura gramatyki POLFIE oraz sposób wykorzystania w niej innych zasobów językowych (m.in. wcześniejszych gramatyk, słownika walencyjnego Walenty i analizatora fleksyjnego Morfeusz2). Uczestnicy zapoznają się z możliwościami automatycznej analizy składniowej tekstu z wykorzystaniem gramatyki POLFIE przy pomocy XLE-Web (część INESS). Zaprezentowana zostanie również wersja gramatyki z ograniczeniami OT (Optimality Theory), które pozwalają na automatyczny wybór rozkładu na podstawie zdefiniowanych preferencji. Na koniec przedstawiony zostanie bank struktur LFG powstały przy pomocy POLFIE, czyli zbiór wzorcowych opisów składniowych dużej liczby wybranych polskich zdań, który można przeglądać i przeszukiwać przy pomocy INESS.

prezentacja: lfg.pdf

17:45 – 18:15 Wykład

Wyszukiwarka korpusowa Poliqarp

prowadzący: mgr Bartosz Zaborowski


W trakcie prezentacji zostanie przedstawiona nowa, rozbudowana wyszukiwarka korpusowa Poliqarp 2. Narzędzie zostanie omówione przede wszystkim z perspektywy użytkownika końcowego, choć pojawią się też aspekty administracji i przygotowywania korpusów do przeszukiwania. Zaprezentowane zostaną w skrócie możliwości przeszukiwania, zarówno w kontekście zwykłych korpusów jak i banków drzew i struktur LFG, ze szczególnym naciskiem na język wyszukiwania i modelowanie danych wejściowych. Wystąpienie zostanie uzupełnione prezentacją interfejsu użytkownika, w tym wizualizacji wyników przykładowych zapytań.

prezentacja: poliqarp.pdf

19:00 –            Bankiet

WTOREK 26 kwietnia

Narzędzia mowy, korpusy językowe oraz systemy do ich budowy i analizy

9:00 – 9:30      Wykład

Archiwum długotrwałe zasobów naukowych
prowadzący: prof. dr hab. Krzysztof Marasek


Celem zadania było zbudowanie prototypu zasobnika archiwizującego pliki i pozwalającego na długoterminowe przechowywanie danych cyfrowych. Przygotowano nowatorskie rozwiązanie techniczne sieci danych z pełną automatyczną kontrolą stanu fizycznych parametrów zapisu w całym czasie przechowania zasobów. Przewidywany okres przechowywania danych to ok. 45 lat bez potrzeby wymiany urządzeń. Opracowany zasobnik został wyposażony w oprogramowanie pozwalające na wprowadzenie i wyprowadzenie danych w bezpieczny sposób oraz na zapewnienie niskich kosztów przechowywania danych dzięki automatyzacji czynności serwisowych oraz zapewnieniu energooszczędności.

prezentacja: archi160425.pptx

9:30 – 10:00    Wykład

Korpus mowy
prowadzący: prof. dr hab. Krzysztof Marasek


Jednym z zadań kluczowych projektu było stworzenie dużego referencyjnego korpusu mowy, który może być rozpowszechniony na wolnej licencji do dowolnych zastosowań badawczych. Dotychczas, w języku polskim brakowało wielkich korpusów mowy, które by były dostępne za darmo i bez żadnych ograniczeń. To znacznie utrudniało rozwój różnych dziedzin nauki i technologii, które są uzależnione od takich danych.

W ramach projektu nagrano podstawowy korpus o rozmiarze ponad 50 godzin, w jakości studyjnej oraz mniejszy o rozmiarze około 13 godzin, w jakości telefonicznej. Korpusy te upowszechniono w dwóch formatach: bazy danych EMU do celów badań fonetycznych oraz surowej bazy nagrań przygotowanej do wytrenowania systemu rozpoznawania mowy Kaldi.

prezentacja: ClarinMowa.pdf

10:00 – 10:30 Wykład

Narzędzia do analizy zapisów mowy
prowadzący: prof. dr hab. Krzysztof Marasek


Podstawowym zadaniem zespołu PJATK było stworzenie szeregu narzędzi do analizy nagrań mowy i udostępnienie ich szerokiej publiczności. Tak jak większość podobnych zadań w projekcie, postanowiono, że zostaną one udostępnione w formie usług internetowych.

Narzędzia jakie stworzono to:

– narzędzie do transkrypcji tekstu z formy ortograficznej na fonetyczną

– narzędzie do dopasowania czasowego tekstu do nagrania mowy

– narzędzie do diaryzacji mówców w nagraniu

– narzędzie do detekcji mowy i innych zjawisk nie będących mową

– narzędzie do detekcji słów kluczowych

– narzędzie do transliteracji nagrania

prezentacja: ClarinMowa.pdf

10:30 – 11:00 Wykład

Otwarty korpus języka polskiego o wielowarstwowej anotacji (KPWr) i system do budowania, anotowania i przeszukiwania korpusów (Inforex)
prowadzący: dr Marcin Oleksy, dr inż. Michał Marcińczuk


W czasie wystąpienia zostanie zaprezentowany Korpus Języka Polskiego Politechniki Wrocławskiej – zbiór dokumentów tekstowych dostępnych na licencji Creative Commons, otagowanych i opisanych różnymi typami informacji takimi jak jednostki identyfikacyjne, wyrażenia temporalne, frazy składniowe, sensy słów. Przedstawione zostaną zmiany strukturalne w stosunku do wersji poprzedniej i przebieg prac anotacyjnych wspieranych przez Inforex, któremu zostanie poświęcona druga część wystąpienia. Inforex to webowy system do konstrukcji korpusów tekstowych, pozwalający na równoległy dostęp wielu użytkowników oraz współdzielenie zasobów. System wspiera proces anotacji semantycznej tekstów na kilku poziomach, m.in. znakowanie odniesień tekstowych, tworzenie relacji między odniesieniami, znakowanie znaczeń słów.

prezentacja: KPWr_Inforex.pdf

11:00 – 11:30  Przerwa kawowa

11:30 – 12:00  Wykład

Narzędzia do automatycznej analizy odniesień w tekstach

prowadzący: dr inż. Michał Marcińczuk, mgr inż. Jan Kocoń


Tematem wystąpienia będzie zagadnienie automatycznego rozpoznawania jednostek identyfikacyjnych (głównie nazw własnych oraz przymiotników pochodzących od nazw własnych) oraz wyrażeń temporalnych w tekstach. Zostanie przedstawiony zakres rozpoznawanych informacji (definicja i kategorie jednostek identyfikacyjnych oraz wyrażeń temporalnych) oraz zostaną zaprezentowane różne narzędzia pozwalające na rozpoznawanie tych informacji w tekstach

prezentacja: clarin-pl16-liner2-timex.pdf

12:00 – 12:30  Wykład

Narzędzia do ekstrakcji informacji z tekstu

prowadzący: dr inż. Michał Marcińczuk, mgr inż Jan Kocoń


Tematem wystąpienia będą narzędzia i zasoby do ekstrakcji określonych informacji z tekstów. zaprezentowane zostaną trzy zagadnienia: wykrywanie wyrażeń przestrzennych, wykrywanie wyznaczników sytuacji oraz wykrywanie czasowników z podmiotem domyślnym w kontekście zadania rozpoznawania koreferencji. Dla każdego z zagadnień zostanie omówiony zakres rozpoznawanych sytuacji oraz status narzędzi do realizacji poszczególnych zadań.

prezentacja: clarin-pl16-ie-events.pdf

12:30 – 13:00  Wykład

Korpus chronologiczny ChronoPress jako element infrastruktury CLARIN-PL

prowadzący: prof. dr hab. Adam Pawłowski


Przedmiotem wystąpienia będą zasady konstrukcji Korpusu Polskich Tekstów Prasowych ChronoPress i jego możliwe zastosowania. W pierwszej kolejności wyjaśnione zostanie pojęcie korpusu chronologicznego, definiowanego w opozycji zarówno do korpusów synchronicznych, jak i diachronicznych. Następnie omówiona będzie zawartość ChronoPressu, a w szczególności genologiczne i treściowe kryteria doboru próbek oraz problem reprezentatywności statystycznej i merytorycznej. Kolejnym elementem prezentacji będą już zaimplementowane i przyszłe funkcjonalności korpusu, w większości wytworzone w ramach innych zadań CLARIN-PL. Na zakończenie ChronoPress zostanie porównany z narzędziami Google Ngram Viewer, Frazeo.pl oraz skandynawskim korpusem KORP, ponadto przedstawione zostaną możliwe scenariusze jego rozbudowy w przyszłości.

prezentacja: CLARIN-konferencjakocowa-pawlowski.pptx

13:00 – 13:30  Wykład

Korpusy wielojęzyczne. Rzutowanie anotacji z jednego języka na drugi.

prowadzący: dr hab. Roman Roszko, prof. IS PAN


Zagadnienia, które zostaną poruszone:

  1. a) Polsko-litewski korpus czyli bazy współczesnych, równoległych i porównawczych tekstów w językach polskim i litewskim (powstałe w ramach zadań Clarin-PL) – stan aktualny oraz realne perspektywy rozwoju.
  2. b) Ręczna eksperymentalna anotacja semantyczna tekstów ciągłych w polsko-litewskim korpusie równoległym (Clarin-PL) z uwzględnieniem takich wartości jak: jednostkowość, egzystencjalność czy ogólność obiektów, stanów i zdarzeń oraz szeregów stanów i zdarzeń.
  3. c) Rzutowanie anotacji z jednego języka na drugi na przykładzie polsko-litewskiego korpusu równoległego ze szczególnym uzasadnieniem możliwości i celowości takiej projekcji.

Zachowawczy charakter języka litewskiego, przejrzystość struktury formalnej oraz proste (nieuwikłane) odniesienie płaszczyzn formalnej i znaczeniowej pozwala na wzbogacenie opisu innych, odniesionych do języka litewskiego zasobów językowych, o wartości przynależne płaszczyźnie znaczeniowej. Omawiana projekcja anotowanych wartości z języka litewskiego na polski lub inny język pozwala nie tylko automatycznie ujednoznacznić wieloznaczne formy innego języka, lecz także dodać te wartości, które w innych językach nie są kodowane.

prezentacja: Roszko_Wroclaw_Clarin_2016.pdf

13:30 – 14:30  Obiad

14:30 – 15:00  Wykład

Słowosieć i enWordNet

prowadzący: dr Marek Maziarz, dr Ewa Rudnicka, dr inż. Maciej Piasecki


Tematem prezentacji są najnowsze rezultaty rozwoju dwóch wielkich baz leksykalno-semantycznych: Słowosieci dla języka polskiego oraz enWordNetu stanowiącego rozszerzenie angielskiego WordNetu princetońskiego. Słowosieć jest obecnie największym wordnetem na świecie, zawiera niemal 260 tys. jednostek leksykalnych i ponad 600 tys. relacji pomiędzy nimi. Jest połączona z wieloma innymi zasobami leksykalnymi i semantycznymi – WordNetem princetońskim, ontologią SUMO, Wikipedią, słownikiem nazw własnych, dziedzinami WordNet Domains. Rozszerzenie WordNetu princetońskiego (enWordNet) zawiera ponad 10 tys. nowych znaczeń, przede wszystkim nazw nowinek technologicznych (smartphone, tablet itd.).

prezentacja: Sieci_leksykalne_25_IV_2016-final.ppt

Narzędzia do analizy i klasyfikacji tekstów

15:00 – 15:30  Wykład

Narzędzia do automatycznej analizy semantycznej tekstu na poziomie leksykalnym, fraz i struktury tekstu

prowadzący: mgr inż. Paweł Kędzia, dr inż. Maciej Piasecki


Podczas prezentacji przedstawione zostaną narzędzia opracowane w ramach projektu CLARIN-PL dotyczące analizy semantycznej tekstu. Zaprezentowany zostanie rezultat prac nad systemem do ujednoznaczniania znaczeń leksykalnych słów, wykorzystujący podejście oparte o strukturę Słowosieci, system wydobywania z tekstu słów kluczowych, który podobnie jak system do ujednoznaczniania znaczeń słów wykorzystuje podejście oparte o analizę grafową. Dodatkowo, przedstawione zostaną systemy do ekstrakcyjnego streszczania tekstu, wykrywania ról semantycznych wewnątrz frazy nominalnej oraz system do wykrywania relacji semantycznych między fragmentami tekstów. System do wykrywania ról semantycznych wewnątrz frazy rzeczownikowej opracowany został uwzględniając podejście regułowe oraz maszynowego uczenia. System streszczania tekstu wykorzystuje podejście nienadzorowane do wydobywania z tekstu najistotniejszych zdań, zaś system do określania relacji semantycznych pomiędzy fragmentami tekstów oparty jest o uczenie maszynowe.

prezentacja: Clarin-pl-konf-26.04.2016-pkedzia,mpiasecki.pdf

15:30 – 16:00  Wykład

Kategorialny Parser Składniowo-Semantyczny

prowadzący: dr Wojciech Jaworski


Kategorialny parser składniowo-semantyczny jest pierwszym parserem języka polskiego generującym reprezentacje semantyczne. Semantyka zdań przedstawiana jest w postaci grafów semantycznych oraz formuł logiki pierwszego rzędu. Parser realizuje kolejne etapy przetwarzania tekstu: tokenizację, lematyzację, rozpoznawanie związków składniowych, anotację sensami słów oraz rolami tematycznymi, częściową ujednoznacznianie oraz utworzenie reprezentacji semantycznej. Podczas referatu przedstawię aktualny stan rozwoju parsera. Opowiem m.in. o zastosowanej przeze mnie gramatyce kategorialnej, strategiach redukcji niejednoznaczności oraz zależnościach jakie pojawiają się pomiędzy poszczególnymi poziomami analizy języka np. wymaganiach jakie wprowadzenie poziomu semantycznego narzuca na analizę składniową.

prezentacja: parser-skladniowo-semantyczny.pdf

16:00 – 16:30  Wykład

MeWeX – System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów

prowadzący: dr Marek Maziarz, dr inż. Maciej Piasecki


MeWeX to system służący do wydobywania z korpusów kolokacji o określonych typach strukturalnych, np. rzeczownik + przymiotnik (broń jądrowa) czy rzeczownik + przymiotnik + rzeczownik (broń masowego rażenia). W analizie kolokacji wykorzystywanych jest wiele miar statystycznych sprawdzających siłę powiązania. MeWeX można wykorzystać również do rozbudowy słownika leksykalnych jednostek wielowyrazowych (niekompozycyjnych semantycznie i terminów).

prezentacja: MeWeX-CLARIN-PL-final.ppt

16:30 – 17:00  Przerwa Kawowa

17:00 – 17:30  Wykład

Narzędzia do analizy stylometrycznej i klasyfikacji semantycznej tekstu

prowadzący: dr inż. Maciej Piasecki, dr inż. Tomasz Walkowiak


W projekcie CLARIN-PL opracowaliśmy szereg prototypów aplikacji badawczych we współpracy z badaczami z różnych dziedzin humanistyki i nauk społecznych. W ramach tego wystąpienie chcemy przedstawić cały zespół narzędzi badawczych do analizy stylometrycznej i semantycznej tekstu. Ze względu na zastosowane rozwiązania narzędzia te łączą się w jeden wspólny system. Jego centralnym elementem jest webowy system do analizy stylometrycznej, który umożliwia opisywanie tekstów cechami na różnym poziomie i następnie przeprowadzanie analiz z zastosowaniem różnych metod przetwarzania i grupowania poprzez interfejs webowy. W oparciu o rozszerzony zestaw pracuje narzędzie, które na podstawie ręcznie opisanych próbek tekstu (różnego typu) uczy się rozpoznawania wystąpień określonych klas semantycznych w tekstach. Teksty i grupy tekstów można też porównywać pod względem cech podobnych i różnicujących. Wystąpienie zostanie podsumowane szerszym spojrzeniem na różnorodne zastosowania CLARIN i aplikacje badawcze jakie powstały w ramach CLARIN-PL.

prezentacja: CL-Suma-Stylometria.ppt

17:30 – 18:00  Wykład

Mapa Literacka – analiza odniesień geograficznych w tekstach literackich

prowadzący: dr inż. Michał Marcińczuk, mgr Aleksandra Wójtowicz


Tematem wystąpienia będzie narzędzie do analizy odniesień geograficzny w tekstach literackich o nazwie Mapa Literacka. Narzędzie służy do automatycznego rozpoznania odniesień do obiektów geograficznych w tekstach w j. polskim, dokonuje ich kategoryzacji semantycznej i geolokalizacji oraz prezentuje wyniki na mapie geograficznej. Odniesienia do obiektów geograficznych są rozpoznawane przy pomocy narzędzi do ekstrakcji tekstu opracowane w ramach projektu Clarin-PL. Do geolokalizacji obiektów wykorzystana została usługa Google Maps Geocoding, a do wizualizacji Google Maps.

prezentacja: clarin-pl16-litmap.pdf

18:00 – 18:15            Zakończenie
18:30 –                        Kolacja

ŚRODA 27 kwietnia

Premiera Słowosieci 3.0 emo i enWordNet 1.0

10:30 – 10:45  Powitanie

10:45 – 11:15  Wykład

Proces tworzenia Słowosieci

prowadzący: dr inż. Maciej Piasecki, dr Marek Maziarz


Wordnet to sieć leksykalno-semantyczna, której węzłami są znaczenia wyrazów, węzły te połączone są relacjami semantycznymi. Słowosieć tworzona jest metodami korpusowymi i półautomatycznymi: z dużego korpusu języka polskiego (1,8 mld wyrazów) wydobywamy listy frekwencyjne, które następnie stają się podstawą siatki haseł słownika, dla każdego hasła algorytmy sztucznej inteligencji wyszukują w korpusie przykłady użycia, wyrazy bliskie semantycznie, a także proponują miejsce w Słowosieci, w którym można by nowy wyraz podłączyć. Ostateczną decyzję podejmują leksykografowie, posiłkując się testami podstawieniowymi dla poszczególnych relacji semantycznych.

prezentacja: Premiera30-proces-budowy-final.ppt

11:15 – 11:45 Wykład

Opis przymiotnika i przysłówka w Słowosieci
prowadzący: dr Marek Maziarz


Przymiotnik i przysłówek to części mowy, które w wordnetach nie tworzą hierarchicznej struktury – w przeciwieństwie do rzeczownika i czasownika. WordNet Uniwersytetu w Princeton buduje sieć powiązań leksykalnych praktycznie na trzech relacjach: antonimii, podobieństwie semantycznym oraz transpozycji. W Słowosieci najczęstszą relacją w przypadku tych części mowy jest hiponimia. W prezentacji tej pokażemy, w jaki sposób przymiotniki i przysłówki układają się w ustrukturyzowane dzieki hiponimii pola leksykalne.

prezentacja: clarin_adj_adv-final.pptx

11:45 – 12:15 Wykład

Leksykalność połączeń wyrazowych w Słowosieci
prowadzący: dr Marek Maziarz


W naszej pamięci przechowujemy nie tylko pojedyncze słowa, ale i kombinacje słów. Leksykalność połączeń wyrazowych to podstawowe zagadnienie frazeologii. W literaturze przedmiotu zaproponowano bardzo dużo rozmaitych kryteriów frazeologiczności, niestety, brakuje procedury, która mówiłaby, kiedy i w jakiej kolejności stosować określone kryteria. Na postawie pilotażowych badań nad odczuwaniem leksykalności połączeń wyrazowych proponujemy nową procedurę. Kryteria ułożyliśmy według porządku wykrytego przez algorytm sztucznej inteligencji (drzewo decyzyjne). Interesujące jest to, że komputer uznał za leksykalne połączenia niekompozycyjne semantycznie, niekompozycyjne składniowo oraz terminy.

prezentacja: MWE_DEF_Clarin2-final.pptx

12:15 – 12:30  Przerwa kawowa

12:30 – 13:00  Wykład

Opis znaczeń leksykalnych Słowosieci za pomocą skojarzonych z nimi podstawowy uczuć, wartości fundamentalnych oraz polaryzacji nastawienia emocjonalnego
prowadzący: dr hab. Monika Zaśko-Zielińska


W ramach projektu CLARIN-PL zostało pilotażowe rozszerzenie Słowosieci o opis wybranych znaczeń leksykalnych w zakresie skojarzonych z nimi podstawowych emocji, fundamentalnych wartości oraz polaryzacji nastawienia emocjonalnego. Opisem zostało objętych około 31 000 znaczeń wybranych spośród rzeczowników oraz przymiotników. Praca została wykonana przez zespół psychologów i lingwistów. Pomimo ograniczonego rozmiaru pilotażowej bazy znalazła już ona zastosowania w analizie tekstów pod kątem wyrażanych emocji oraz nastawienia nadawcy. W ramach wystąpienia zostanie przedstawiony model opisu oraz zastosowane procedury pracy zespołu zaplanowane w sposób zmierzający do uzyskania jak największej spójności decyzji. Omówimy również potencjalne możliwości wykorzystania tego zasobu. Pomimo ograniczonego rozmiaru jest to już największy ręcznie zbudowany zasób tego typu na świecie.

prezentacja: plWN-emo.ppt

13:00 – 13:30  Wykład

Rzutowanie Słowosieci na Princeton Wordnet

prowadzący: dr Ewa Rudnicka


Podczas prezentacji przedstawimy aktualne wyniki rzutowania Słowosieci na Princeton WordNet. Polega ono na tworzeniu międzyjęzykowych powiązań pomiędzy polskimi synsetami Słowosieci i angielskimi synsetami WordNetu princetońskiego na podstawie podobieństwa znaczeń oraz miejsca w strukturze macierzystej sieci przy wykorzystaniu zestawu relacji międzyjęzykowych takich jak synonimia (pełna, częściowa, międzyrejestrowa), hipo/hiperonimia, mero/holonimia, oraz synonimia międzyparadygmatyczna. Obecnie rzutowanie objęło już takie kategorie gramatyczne jak rzeczownik, przymiotnik i przysłówek. Ręczny proces tworzenia powiązań wspomagany jest przez systemy automatycznych podpowiedzi zaprojektowane osobno dla każdej z rzutowanych części mowy.

prezentacja: Rzutowanie_Premiera Slowosiec_3_0_2016.ppt

13:30 – 14:00  Wykład

enWordNet – rozszerzony angielski wordnet

prowadzący: dr Ewa Rudnicka


enWordNet to najnowsze rozszerzenie angielskiego WordNetu princetońskiego zbudowane przez zespół anglistów leksykografów (przy udziale dwujęzycznego native speakera) na Politechnice Wrocławskiej. Pomysł rozszerzenia WordNetu princetońskiego zrodził się podczas rzutowania na niego Słowosieci. Pomimo najwyższego priorytetu dla synonimii międzyjęzykowej w zestawie relacji, w obrębie wszystkich rzutowanych kategorii gramatycznych liczba jej powiązań jest dwukrotnie niższa niż hiponimii międzyjęzykowej. Analiza leksykograficzna wykazała, że jest to w dużej mierze spowodowane brakami oraz różnicami w pokryciu leksykalnym obu sieci. Prowadzony proces rozszerzania ma na celu ich uzupełnienie przy wykorzystaniu istniejących powiązań hiponimii międzyjęzykowej jako wskaźników potencjalnych ‘białych plam’.

prezentacja: enWordnet_1_0_Premiera Slowosiec_3_0_2016.ppt

14:00 – 15:00  Obiad

15:00 – 15:30  Wykład

Rzutowanie Słowosieci na pojęcia ontologii SUMO

prowadzący: mgr inż. Paweł Kędzia


W ramach wystąpienia przedstawione zostaną efekty prac nad rzutowaniem Słowosieci na różne zasoby semantyczne. Przedstawiony oraz omówiony zostanie wynik rzutowania Słowosieci na ontologię SUMO. Opracowane rzutowanie wykorzystuje podejście regułowe, w którym głównym punktem są relacje międzyjęzykowe (pomiędzy Słowosiecią a PrincetonWordnet’em), przedstawione zostaną przykładowe reguły rzutujące. Przedstawiony zostanie również wynik rzutowania Słowosieci na Wikipedię, omówiony zostanie algorytm wykorzystany podczas rzutowania oraz przedstawione zostaną różne statystyki dotyczące rzutowania. Dodatkowo zaprezentowane zostanie ręczne rzutowanie kategorii nazw własnych na znaczenia Słowosieci.

prezentacja: clarin-premiera-sumo.pdf

15:30 – 16:00  Wykład

Zastosowania Słowosieci i systemu zasobów leksykalnych

prowadzący: dr inż. Maciej Piasecki


Słowosieć i enWordNet są leksykalnymi zasobami językowymi o podstawowym charakterze i znaczeniu. Dzięki zapewnianej formalizacji opisu znaczeń leksykalnych i bardzo dobremu pokryciu (np. do Słowosieci włączono większość rzeczowników polskich o częstości przynajmniej 30 wystąpień na 1,8 miliarda słów) obydwa zasoby otwierają możliwości setek różnych zastosowań. W trakcie wystąpienia przedstawimy przegląd dziesiątek znanych zastosowań obu wordnetów oraz narzędzi językowych jakie zostały zbudowane w oparciu o nie. Szczególną uwagę poświęcimy programom do ujednoznaczniania znaczeń słów w tekstach, które działają w oparciu o wordnety.

prezentacja: Premiera30-zastosowania.ppt

16:00 –            Zakończenie

„Słowa dnia” – nowa witryna CLARIN-PL

Szanowni Państwo!
Od 26 listopada 2015 r. na serwerach CTJ CLARIN-PL działa witryna “Słowa dnia”. Na stronie tej publikowane i komentowane są słowa, które pojawiały się szczególnie często w próbkach dyskursu medialnego z danego dnia. Listy słów dnia służą również do wyboru list miesiąca, a także słów roku.
Zapraszamy do zapoznania się z narzędziem.


CTJ dołącza do centrów typu B

Mamy przyjemność poinformować, że Centrum Technologii Językowych CLARIN-PL otrzymało oficjalny certyfikat centrum typu B. Oznacza to, że posiada ono potwierdzenie jakości Data Seal of Approval oraz pozytywnie przeszło wewnętrzną ocenę w ramach CLARIN.

Centrum typu B oferuje zalogowanym użytkownikom bezpłatny dostęp do narzędzi i zasobów związanych z automatycznym przetwarzaniem języka naturalnego powstających zarówno w Polsce, jak i za granicą. Usługi te gromadzone są w repozytorium, w którym użytkownicy mogą także zapisywać i udostępniać (zgodnie z wybraną licencją) własne zasoby językowe, opatrzone trwałymi identyfikatorami. Wszystkie usługi zostały wzajemnie zintegrowane w ramach Centrum, co  umożliwia użytkownikom wieloaspektowe przetwarzanie badanych materiałów tekstowych. Centrum dba także o przestrzeganie przyjętych standardów, praw dotyczących zarządzania danymi osobowymi, własności intelektualnej, licencji i zasad etycznych.

Otrzymany certyfikat podsumowuje dotychczasowe intensywne prace nad rozwojem CLARIN w Polsce. Dziękujemy wszystkim Współpracownikom, którzy przyczynili się do powstania Centrum, oraz zalogowanym Użytkownikom, którzy swoją aktywnością potwierdzają użyteczność oferowanych usług.

Słowosieć 2.3 największym wordnetem na świecie!

Mamy przyjemność powiadomić, że 9 lipca 2015 udostępniliśmy Słowosieć 2.3 – najnowszą wersję wielkiego semantycznego słownika języka polskiego. Obejmuje ona 170 000 wyrazów, 240 000 unikatowych znaczeń połączonych wzajemnie 600 000 relacjami i jest już największym wordnetem na świecie.

Słowosieć 2.3 została rozbudowana o część przymiotnikową, zawiera więcej wielowyrazowych jednostek leksykalnych, definicji i przykładów użycia. Po raz pierwszy udostępniamy także Słowosieć Emo – 30 tysięcy jednostek leksykalnych ręcznie znakowanych nacechowaniem emocjonalnym (aktualne dostępnych w wersji pobraniowej).

Razem ze Słowosiecią 2.3 publikujemy enWordNet 0.1 – rozszerzenie Princeton Wordnet 3.1, które zawiera 7 tysięcy nowych lematów, 8 tysięcy jednostek leksykalnych i 5,5 tys. synsetów, oraz WNLoom-Viewer – aplikację do przeglądania Słowosieci w postaci siatki znaczeń.
Słowosieć 2.3 jest udostępniona bezpłatnie, na otwartej licencji, umożliwiającej wszelkie (także komercyjne) zastosowania.
Słowosieć 2.3 – pobieranie

Słowosieć 2.3 – przeglądanie online

Słowosieć 2.3 – darmowa aplikacja mobilna

WNLoom-Viewer – pobieranie

WNLoom-Viewer – instrukcja

III cykl wykładów i warsztatów CLARIN-PL

W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się

III cykl wykładów i warsztatów

CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych

         17 – 19 czerwca 2015 roku

Uniwersytet Pedagogiczny w Krakowie, ul. Podchorążych 2




Wydział Filologiczny Uniwersytetu Pedagogicznego w Krakowie

Instytut Języka Polskiego Polskiej Akademii Nauk

Prowadzący: dr hab. Maciej Eder, dr Wojciech Jaworski, mgr inż. Paweł Kędzia, mgr inż. Jan Kocoń, dr hab. Krzysztof Marasek, dr inż. Michał Marcińczuk, dr Marek Maziarz, dr Marcin Oleksy, dr Piotr Pęzik, dr inż. Maciej Piasecki, dr hab. Adam Przepiórkowski, dr Ewa Rudnicka

Letnia Szkoła Humanistyki Cyfrowej jest skierowana do studentów, doktorantów i pracowników naukowych zainteresowanych zastosowaniem narzędzi informatycznych w swoich badaniach. W punkcie ciężkości tegorocznej edycji Szkoły stoi tekst. Proponujemy dwa moduły:

Program warsztatów CLARIN-PL


Warsztaty CLARIN-PL będą poświęcone wykorzystaniu narzędzi i zasobów językowych w pracach badawczych z zakresu nauk humanistycznych i społecznych. Zapraszamy pracowników naukowych do udziału w zajęciach, podczas których będą mogli zapoznać się m. in. z systemami do klasyfikacji tekstu, analizy korpusów mowy, wspomagającymi tworzenie słowników dziedzinowych na podstawie tekstów oraz do badań związanych z nazwami własnymi i indeksami, które stanowią pomoc w pracach leksykograficznych. W zakres warsztatów wejdą takie zagadnienia, jak: gromadzenie i udostępnianie korpusów oraz możliwość wykorzystania narzędzi CLARIN-PL w pracy naukowej w różnych dziedzinach nauk humanistycznych i społecznych (przegląd narzędzi, zasobów i aplikacji – potencjalne zastosowania).

Udział w Szkole Letniej jest bezpłatny, uczestnicy samodzielnie pokrywają koszty noclegów i posiłków. Organizatorzy służą pośrednictwem w znalezieniu niedrogich miejsc hotelowych w pobliskim domu studenckim lub w hostelu.
W razie pytań lub wątpliwości prosimy o kontakt na adres pracownia_metodologiczna@ijp-pan.krakow.pl lub clarin-pl@pwr.edu.pl.
Informujemy, że ze względu na bardzo duże zainteresowanie warsztatami CLARIN-PL zajęcia będą przebiegać równolegle w dwóch tokach.

Poszukiwany programista

Centrum Technologii Językowych CLARIN-PL poszukuje kandydatów na stanowisko:


(miejsce pracy: Wrocław)


Opis stanowiska:

  • implementacja algorytmów związanych z przetwarzaniem języka naturalnego i sztuczną inteligencją,
  • programowanie i projektowanie systemów informatycznych związanych z przetwarzaniem języka naturalnego,
  • aktywny udział w realizowanych testach (realizacja eksperymentów, obróbka danych, realizacja wydzielonych zadań badawczych o różnym stopniu skomplikowania).


Oczekiwania wobec Kandydata:

  •  bardzo dobra znajomość co najmniej jednego z języków: C++, Python lub Java,
  • znajomość języka angielskiego w stopniu pozwalającym na czytanie dokumentacji technicznej i publikacji naukowych,
  • minimum rok doświadczenia na stanowisku programisty lub udział w projekcie programistycznym,
  • mile widziana znajomość: Linux, Boost, Git, UML, CMake.



  • udział w dużych projektach międzynarodowych oraz krajowych,
  • atrakcyjne warunki finansowe,
  • interesującą pracę w dynamicznym zespole,
  • umowę o pracę oraz możliwość elastycznego dostosowania czasu pracy,
  • możliwość rozwoju i zdobycia cennych doświadczeń zawodowych,
  • ciekawą, pełną wyzwań pracę.

Zainteresowanych prosimy o przysłanie CV na adres: clarin-pl@pwr.edu.pl.

Do przesyłanej oferty należy dołączyć oświadczenie: „Wyrażam zgodę na przetwarzanie moich danych osobowych dla potrzeb niezbędnych dla realizacji procesu rekrutacji (zgodnie z ustawą o ochronie danych osobowych z dnia 29.08.1997 r. Dz. U. Nr 133, Poz. 883).”

Uprzejmie informujemy, że skontaktujemy się tylko z wybranymi kandydatami.

CLARIN-PL: udane partnerstwo humanistyki i technologii informatycznych

Dr Maciej Piasecki, koordynator CLARIN w Polsce, wygłosi wykład „CLARIN-PL: udane partnerstwo humanistyki i technologii informatycznych” w ramach Międzynarodowej Interdyscyplinarnej Konferencji Edukacyjno-Naukowej: Kultura i zawody przyszłości: humanistyka jako téchne (Culture and Professions of the Future: Humanities as the Arts and Technology), która odbędzie się w Łodzi, w dniach 4-5 maja 2015 roku.