Warsztaty CLARIN-PL w praktyce badawczej (UMCS LUBLIN)

MATERIAŁY I PREZENTACJE Z WARSZTATÓW:

 1. CLARIN-PL – wprowadzenie
 2. Słowosieć – WordNet
 3. Usługi przetwarzania mowy
 4. Parsowanie zależnościowe
 5. Ekstrakcja terminologii z tekstu – TermoPL
 6. Korpus Dyskursu Parlamentarnego
 7. Narzędzie do tworzenia korpusów – Korpusomat
 8. Tager Morfeusz2
 9. Korpusy wielojęzyczne + przeglądarka korpusowa Kontext
 10. Repozytorium DSpace + Platforma CLARIN Cloud + Narzędzie INFOREX (anotacja korpusów)

LINK do PROGRAMU: LINK

ADRES warsztatów: 

Wydział Politologii UMCS

pl. Litewski 3, Lublin

Szanowni Państwo,

w imieniu wszystkich organizatorów chciałbym poinformować o nadchodzącej X Edycji Cyklu wykładów i warsztatów: CLARIN-PL w praktyce badawczej.

Wydarzenie to odbędzie się 25 i 26 września 2019 roku na Wydziale Politologii Uniwersytetu Marii Curie-Skłodowskiej w Lublinie.

Serdecznie zapraszamy do wzięcia udziału w warsztatach wszystkich naukowców, dydaktyków, doktorantów i studentów zainteresowanych wykorzystaniem metod maszynowego przetwarzania języka naturalnego w badaniach humanistycznych i społecznych.

Warunkiem wzięcia udziału w warsztatach jest wypełnienie formularza rejestracyjnego (adres internetowy w dalszej części ogłoszenia). Warsztaty mają charakter bezpłatny, nie jest wymagane wcześniejsze doświadczenie w pracy z narzędziami służącymi do przetwarzania języka, konsorcjum CLARIN-PL pokrywa koszt przerw kawowych i lunchu dla uczestników.

Przewidujemy zajęcia poświęcone między innymi:
– narzędziom ekstrakcji informacji z tekstu
– narzędziom do tworzenia prostych charakterystyk statystycznych tekstu
– narzędziom analizy stylometrycznej
– leksykalno-semantycznym bazom danych (Słowosieć, Słowosieć Dwujęzyczna, Walenty)
– korpusom wielojęzycznym
– narzędziom do analizy mowy
– narzędziom do tworzenia, zarządzania i znakowania korpusów
– podstawowym narzędziom przetwarzania tekstu

Termin rejestracji to 16 lipca 2019 roku. Po tym dniu organizatorzy przeprowadzą kwalifikację zgłoszeń (jeśli osób zgłoszonych będzie więcej niż miejsc), której wyniki zostaną przekazane zainteresowanym osobom najpóźniej 20 lipca. Zapraszamy również do zapoznania się z:

 • materiałami z poprzednich warsztatów: LINK
 • krótką charakterystyką zajęć przygotowanych na warsztaty: LINK

Organizatorami warsztatów są:

 • Wydział Politologii Uniwersytetu Marii Curie-Skłodowskiej w Lublinie

 • Centrum Technologii Językowych CLARIN-PL

 • PolLinguaTec – Centrum Wiedzy CLARIN Technologii Językowej dla Języka Polskiego

Więcej informacji na temat działalności CLARIN-PL znajdą Państwo na stronie www.clarin-pl.eu.

Warsztaty CLARIN-PL w Poznaniu 2018 – prezentacje i materiały

Zapraszamy do zapoznania się z prezentacjami i materiałami wykorzystanymi podczas warsztatów CLARIN-PL w Poznaniu:

 

Program warsztatów: tabela z programem

Czym jest CLARIN-PL – wprowadzenie

Tworzenie, przeglądanie i anotacja korpusów tekstów:

Narzędzia i zasoby do przetwarzania mowy:

Wydobywanie informacji oraz cech tekstów: tworzenie prostych statystyk, stylometria, grupowanie, ustalanie autorstwa, wydobywanie terminów, ustalanie nazw własnych:

Zasoby leksykalne CLARIN-PL: wielki relacyjny słownik semantyczny – Słowosieć, Słowosieć polsko-angielska, Słownik znakowany wydźwiękiem emocjonalnym, Walenty – słownik walencyjny:

Korzystanie z korpusów konwersacyjnych i równoległych: Spokes i Paralela:

Wywiad z prof. Adamem Pawłowskim z Uniwersytetu Wrocławskiego

Zapraszamy do lektury wywiadu z prof. Adamem Pawłowskim. Profesor koordynuje prace konsorcjum CLARIN-PL na Uniwersytecie Wrocławskim, jest inicjatorem i autorem portalu Chronopress. Najważniejszy element portalu stanowi przeglądarka umożliwiająca przeszukiwanie oraz wykonywanie prostych obliczeń dla wyboru polskich tekstów prasowych z lat 1945 – 1962.

Zapraszamy do lektury wywiadu dostępnego TUTAJ.

Tekst ukazał się elektronicznej oraz tradycyjnej wersji Przeglądu Uniwersyteckiego.

Opublikowaliśmy materiały z warsztatów przeprowadzonych w IPI PAN

W dziale mediateka umieściliśmy prezentacje, z których korzystali prelegenci podczas V cyklu wykładów i warsztatów „CLARIN-PL w praktyce badawczej. Cyfrowe Narzędzia do analizy języka w naukach humanistycznych i społecznych”.
Prezentacje zawierają podstawowe informacje dotyczące infrastruktury CLARIN-PL, wytworzonych zasobów oraz narzędzi do automatycznego przetwarzania języka.
Do materiałów prowadzi link: materiały
Zapraszamy do korzystania z udostępnionych prezentacji!

Korpusomat – przygotowanie do warsztatów

Wymagania podstawowe

Do uczestnictwa w warsztacie potrzebny jest komputer z dostępem do Internetu (sieć WiFi dostępna będzie na sali warsztatowej), przeglądarką internetową (np. Firefox, Chrome) oraz systemem operacyjnym Windows, Linux lub MacOS X.

Instalacja Javy

 1. Wejdź na stronę https://www.java.com/pl/ i wybierz przycisk “Bezpłatnie pobieranie oprogramowania Java”
 2. Postępuj zgodnie z dalszymi instrukcjami na stronie, a więc wybierz opcję “Zgadzam się – rozpocznij bezpłatne pobieranie”
 3. Otwórz pobrany plik, aby rozpocząć instalację.

Pobranie i uruchomienie oprogramowania Poliqarp

Ze strony http://clip.ipipan.waw.pl/Poliqarp pobierz wersję Poliqarpa dla swojego systemu operacyjnego.

Windows

 1. Pobierz plik poliqarp-1_3_11.zip
 2. Rozpakuj archiwum do wybranego katalogu (np. na Pulpit).
  Większość współczesnych wersji Windows posiada możliwość otwierania archiwów .zip – wystarczy otworzyć pobrany plik (najczęściej znajduje się w katalogu Pobrane) i przeciągnąć zawartość, np. na Pulpit. Jeśli Windows nie pozwala otworzyć powyższego pliku, pobierz i zainstaluj dodatkowe oprogramowanie do otwierania archiwów (np. http://7-zip.org.pl/)
 3. Uruchomienie poliqarpa sprowadza się do otwarcia pliku run.bat w rozpakowanym katalogu Poliqarp.
  Jeśli wybranie pliku run.bat nie spowoduje uruchomienia Poliqarpa wykonaj następujące czynności:

 

 • otwórz plik poliqarpd.exe
 • otwórz plik poliqarp.jar

 

Linux

Pobierz:

 

Pobierz również interfejs graficzny Poliqarpa: poliqarp-gui_1.3.13_all.deb

 

Zainstaluj obie paczki za pomocą poleceń:

sudo apt-get install libjgoodies-common-java libjgoodies-forms-java libjgoodies-looks-java

 

sudo dpkg -i poliqarp-base_1.3.13_amd64.deb 

sudo dpkg -i poliqarp-gui_1.3.13_all.deb

 

Uruchom poliqarpa za pomocą polecenia:

/usr/bin/poliqarp

MacOS X

Gotowa paczka z Poliqarpem pod Mac OS X Sierra dostępna jest pod adresem:

poliqarp-1.13.13-osx.zip

 

Rozpakuj archiwum i uruchom poliqarpa poprzez:

 1. uruchomienie elementu poliqarpd (pojawi się konsola, nie należy jej wyłączać)
 2. uruchomienie elementu poliqarp.jar

 

Ewentualne problemy:

 1. Jeśli podczas uruchomienia poliqard pojawi się komunikat:
  gethostbyname() failed […]
  Sprawdź nazwę swojego komputera w oknie Preferencje systemowe -> Udostępnianie
  Jeśli nazwa Twojego komputera to np. iMac, wówczas dodaj wiersz do pliku /etc/hosts o następującej postaci:
  127.0.0.1 iMac.local
 2. Jeśli podczas uruchomienia poliqarp.jar pojawi się komunikat o braku dostępności maszyny wirtualnej Java -> Zainstaluj Javę (patrz początek dokumentu)
 3. Jeśli podczas uruchomienia poliqarp.jar pojawi się komunikat “Nie można połączyć z serwerem” / “Could not connect to the server” -> Nie działa poliqarpd, upewnij się, że okno terminala, w którym działa poliqarpd nie zostało zamknięte
 4. Jeśli podczas uruchamiania poliqarpd lub poliqarp.jar pojawi się ostrzeżenie o próbie uruchomienia aplikacji spoza AppStore -> Musisz zmienić ustawienia zezwalając na uruchamianie aplikacji spoza AppStore (Preferencje systemowe -> Ochrona i prywatność)
 5. Inne problemy z uruchomieniem poliqarpd -> Patrz “Samodzielna kompilacja ze źródeł poniżej”

MacOS X – samodzielna kompilacja ze źródeł

Pobierz źródła poliqarpa:

poliqarp_1.3.13.tar.gz

 

A następnie skompiluj, z poniższymi uwagami.

 

 1. Instalacja kompilatora, np. poprzez polecenie xcode-select –install
 2. Wygenerowanie skryptu Makefile poprzez polecenie
  ./configure
 3. Instalacja menadżera pakietów brew (https://brew.sh/index_pl.html)
  /usr/bin/ruby -e „$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”
 4. Instalacja gnu-sed:
  brew install gnu-sed
 5. Modyfikacja pliku Makefile – dowolnym edytorem zmień wiersz rozpoczynający się od:
  sed -n -e ‘/^%token …
  na:
  gsed -n -e ‘/^%token …
 6. Kompilacja za pomocą polecenia
  make
 7. Skompilowany serwer poliqarpa oraz klient tekstowy (poliqarpd, poliqarpc) znajduje się w katalogu bin

Materiały z warsztatów w Łodzi (3-4 lutego 2017)

W dziale mediateka umieściliśmy prezentacje, z których korzystali prelegenci podczas IV cyklu wykładów i warsztatów „CLARIN-PL w praktyce badawczej. Cyfrowe Narzędzia do analizy języka w naukach humanistycznych i społecznych”.
Prezentacje zawierają podstawowe informacje dotyczące infrastruktury CLARIN-PL, wytworzonych zasobów oraz narzędzi do automatycznego przetwarzania języka.
Do materiałów prowadzi link: materiały

„Słowa dnia” – nowa witryna CLARIN-PL

Szanowni Państwo!
Od 26 listopada 2015 r. na serwerach CTJ CLARIN-PL działa witryna “Słowa dnia”. Na stronie tej publikowane i komentowane są słowa, które pojawiały się szczególnie często w próbkach dyskursu medialnego z danego dnia. Listy słów dnia służą również do wyboru list miesiąca, a także słów roku.
Zapraszamy do zapoznania się z narzędziem.

 

Prezentacja narzędzi korpusowych CLARIN-PL

Dnia 30 marca 2015 r. w ramach organizowanego przez Wydział Lingwistyki Stosowanej UW seminarium „Polskojęzyczne korpusy równoległe”, zostaną zaprezentowane opracowane w ramach projektu CLARIN-PL narzędzie do anotacji tekstów równoległych Mantel oraz wyszukiwarka korpusów równoległych Paralela. Tego samego dnia pierwsza wersja wyszukiwarki Paralela udostępniona zostanie pod adresem http://paralela.clarin-pl.eu/.

Więcej informacji: http://rownolegle.blog.ils.uw.edu.pl/