Mowa – CLARIN-PL

Usługi do przetwarzania mowy

Nazwa

Usługi do przetwarzania mowy:

ALIGN
ANNPRO
DIA
G2P
KWS
RECO
VAD

Opis

W zbiorze narzędzi do przetwarzania mowy można znaleźć różne samodzielne usługi typu konwersja G2P, segmentacja nagrań, dopasowanie czasowe nagrań, automatyczne rozpoznawanie mowy, detekcję słów kluczowych, czy narzędzie do biometryki głosu.

Wersje

ALIGN

Nazwa

ALIGN – narzędzie do dopasowywania tekstu do audio

Opis

Usługa ALIGN, czy tzw. “speech alignment”, jest jedną z bardziej użytecznych narzędzi. Używany jest do dopasowania przygotowanej wcześniej transkrypcji do dostarczonego nagrania audio. Wynik narzędzia może być rozumiany jak automatyczne generowanie kodów czasowych, gdy znane są zarówno sygnał audio, jak i jego transkrypcja. Jest to użyteczne narzędzie, ponieważ może być stosowane do łatwego wyszukiwania konkretnych zdarzeń w dużych zbiorach nagrań. Umożliwia takżę obliczanie statystyk odnoszących się do czasu poszczególnych zdarzeń (oraz innych ich charakterystyk). Dopasowanie jest wykonywane zarówno na poziomie słów, jak i fonemów. Obecnie narzędzie generuje wyjście w formacie TextGrid (natywnym dla programu Praat), lecz planowane jest też wdrożenie innych formatów. Narzędzie generuje również link to przeglądarki EMU-webApp, która umożliwia przeglądanie rezultatów segmentacji bezpośrednio w przeglądarce www.

W ramach rozszerzeń planuje się implementację lepszego modelu akustycznego. Adaptacja modelu akustycznego wraz z modelem języka byłaby również korzystna, szczególnie w przypadku zaszumionych danych. Narzędzie działa poprawnie dla czystych i przewidywalnych danych. Może jednak produkować błędy bądź całkowicie nie sprawdzać się dla sygnałów bardzo zaszumionych bądź o niskim poziomie energii.

Publikacja, którą należy cytować w razie użycia

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Materiały pomocnicze:

Serwis przetwarzania mowy – dr inż. Danijel Koržinek

Dostęp

https://mowa.clarin-pl.eu/tools/ui/align/segment ; https://mowa.clarin-pl.eu:8433/

Link do instrukcji

https://mowa.clarin-pl.eu:8433/docs/doc.html#alignment;

https://mowa.clarin-pl.eu:8433/apidoc/index.html#api-Narz%C4%99dzia-SEGTool

Przykładowe zastosowania

korelacja zjawisk akustyczno-fonetycznych z opisem lingiwstycznym mowy

ANNPRO

Nazwa

ANNPRO – wtyczka do Annotation Pro

Opis

Annotation Pro posiada mechanizm umożliwiający włączenie własnego modułu automatycznej segmentacji opartego o własne narzędzia użytkownika. Umożliwia to wykorzystanie własnego narzędzia anotacji w środowisku Annotation Pro, dzięki czemu użytkownik uzyska dostęp np. do opcji wykonania automatycznej segmentacji/transkrypcji danych dla plików zawartych w kolekcji, jednoczesnego przetworzenia wielu plików i wielu warstw anotacji. Działanie narzędzi desktopowych może być efektywniejsze w przypadku anotacji plików audio czy wideo, szczególnie o dłuższym czasie trwania i obecności różnego rodzaju dźwięków dodatkowych. Narzędzie dedykowane do anotacji i eksploracji anotacji od razu zapewni możliwość nadzoru nad procesem. Uruchomienie wersji offline umożliwi anotację danych ‘wrażliwych’, których z uwagi na ochronę danych lub inne obostrzenia nie można przesyłać na zewnętrzne serwery.

Publikacja, którą należy cytować w razie użycia

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Materiały pomocnicze:

Serwis przetwarzania mowy – dr inż. Danijel Koržinek

Dostęp

http://mowa.clarin-pl.eu/tools/ui/phonetize/word ; https://mowa.clarin-pl.eu/tools/ui/phonetize/list

Link do instrukcji

http://mowa.clarin-pl.eu/tools/ui/phonetize/word ; https://mowa.clarin-pl.eu:8433/docs/doc.html#g2p

Przykładowe zastosowania

Automatyzacja procesu segmentacji nagrania w programie Annotation Pro

DIA

Nazwa

DIA – narzędzie do rozpoznawania mówców (biometryka głosu)

Opis

Narzędzie DIA jest używane do segmentacji dużych plików audio na części wypowiadane przez poszczególne osoby. Istnieje kilka typów strategii segmentacji mówców: pierwsza to rozpoznawanie momentu zmiany mówcy na innego; druga to dodanie informacji, który fragment należy do tego samego mówcy; a trzecia strategia polega na identyfikacji rozpoznanych fragmentów tak, aby wiedzieć kto dokładnie mówi w rozpoznanym segmencie. Nasze narzędzie wspiera drugą strategię, w której rozpoznajemy zmiany mówców, wiemy ilu ich jest oraz w jakich momentach nagrania występują. Narzędzie jednak traktuje mówców w sposób anonimowy, nie identyfikując ich, a jedynie przypisując im numery w kolejności. Narzędzie to jest użyteczne do adaptacji różnych narzędzi oraz modeli do indywidualnych mówców, jak również do innych typów analiz które wymagają segmentacji mówców.

Publikacja, którą należy cytować w razie użycia

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Materiały pomocnicze:

Serwis przetwarzania mowy – dr inż. Danijel Koržinek

Dostęp

http://mowa.clarin-pl.eu/tools/ui/speech/diarize ;

https://mowa.clarin-pl.eu:8433/

Link do instrukcji

https://mowa.clarin-pl.eu:8433/docs/doc.html#vad ; https://mowa.clarin-pl.eu:8433/apidoc/index.html#api-Narz%C4%99dzia-DIATool

Przykładowe zastosowania

Analiza aktywności poszczególnych mówców w nagraniu wielu osób

G2P

Nazwa

G2P – Konwersja zapisu ortograficznego na fonetyczny (grapheme-to-phoneme)

Opis

Narzędzie G2P (grapheme-to-phoneme) pozwala na konwersję każdego tekstu napisanego ortograficznie na jego formę fonetyczną (mówioną). Jest to jeden z podstawowych kroków w każdych procesie przetwarzania danych mowy. Narzędzie akceptuje każdą formę tekstu, jednakże nie wykonuje normalizacji tekstu. Oznacza to iż nie zamienia liczb, dat oraz skrótów w sposób automatyczny. System wykorzystuje reguły (972 podstawowe reguły oraz 4802 zastępowań wyrazów z powodu wyjątków), zawiera listę wyjątków dla nazw własnych, zagranicznych i słów nietypowych. Narzędzie może generować zarówno listy wyrazów uwzględniające różne wymowy (z efektu koartykulacji wynikającego z kontekstu) jak również kanoniczną transkrypcję tekstu. Narzędzie wykorzystuje wariant alfabetu fonetycznego SAMPA, zmodyfikowanego tak aby zawierał tylko litery alfabetu (bez symboli takich jak apostrof czy tylda, które zostały zastąpione literami i oraz n).

Transkrypcja to zapis wymowy danego słowa. Alfabet ortograficzny nie spelnia tej funkcji, ponieważ zapis ortograficzny nie mówi (wbrew pozorom) jak dokładnie należy przeczytać dane słowo. Ponadto mnogość alfabetów (łaciński, cyrylica, koreański i inne) wymagałaby znajomości każdego z nich, by móc przeczytać słowo z danego języka. Trzeba jednak zauważyć, że chociaż istnieje międzynarodowy alfabet fonetyczny (międzynarodowy system API – Alphabet phonétique international), nie zawsze jest on powszechnie stosowany. Międzynarodowy system transkrypcji IPA (International Phonetic Alphabet) był tworzony w oparciu o fonetykę i fonologię języków zachodnioeuropejskich i nie jest zbyt dobrze dostosowany do języka polskiego.

Planuje się wdrożenie kilku rozszerzeń do tego narzędzia. Na pierwszym miejscu jest normalizacja tekstu (liczby, daty itp.) przed konwersją. Kolejnym planowanym rozszerzeniem jest dołączenie różnych form alfabetu fonetycznego oraz ewentualnie dodanie dodatkowych poziomów anotacji (akcenty lub sylabizacja). Wdrożenie tych rozszerzeń zależy od zainteresowania środowiska wspomnianymi narzędziami.

Publikacja, którą należy cytować w razie użycia

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Materiały pomocniczne:

Serwis przetwarzania mowy – dr inż. Danijel Koržinek

Dostęp

http://mowa.clarin-pl.eu/tools/ui/phonetize/word ; https://mowa.clarin-pl.eu/tools/ui/phonetize/list

Link do instrukcji

http://mowa.clarin-pl.eu/tools/ui/phonetize/word ; https://mowa.clarin-pl.eu:8433/docs/doc.html#g2p

Przykładowe zastosowania

Analiza korpusowa tekstów uwzględniająca wymowę lub podobieństwo wymowy

KWS

Nazwa

KWS – Detekcja słów kluczowych (keyword spotting)

Opis

Często dokładna transkrypcja materiału audio nie jest konieczna, ponieważ jesteśmy zainteresowani tylko występowaniem pojedynczych słów. Wykrywanie słów kluczowych jest procesem, który pobiera plik audio oraz listę słów kluczowych. Następnie generuje listę występowania tych słów w obrębie pliku audio. Należy jednak zwrócić uwagę że model języka ma ograniczoną wielkość słownika, dlatego też niemożliwym jest przewidzenie wszystkich możliwych wyrazów. Z tego powodu system używa kombinacji słów oraz wyrazów w taki sposób, że gdy jest potrzeba znalezienia słowa spoza słownika, używana jest reprezentacja sylabowa danego słowa. Dzięki temu system radzi sobie ze słowami, które są spoza słownika, ale jest bardziej podatny na błędy, gdy dostarczone są bardzo krótkie słowa kluczowe. W celu przetestowania narzędzia został przygotowany test, który pokazał całkowitą precyzję na poziomie ~95% oraz poziom czułości (Recall) dla znanych wyrazów ~82% oraz niski poziom dla wyrazów nieznanych (~20%). Model oparty o sylaby wymaga poprawy w przyszłości, aby uniknąć błędów w przypadku wyrazów nieznanych.

Publikacja, którą należy cytować w razie użycia

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Materiały pomocniczne:

Serwis przetwarzania mowy – dr inż. Danijel Koržinek

Dostęp

http://mowa.clarin-pl.eu/tools/ui/speech/kws

Link do instrukcji

http://mowa.clarin-pl.eu/tools/ui/speech/kws ; https://mowa.clarin-pl.eu:8433/docs/doc.html#kws

Przykładowe zastosowania

wyszukiwanie haseł w wywiadach lub programach telewizyjnych

RECO

Nazwa

RECO – Automatyczne rozpoznawanie mowy

Opis

Narzędzie to używa systemu rozpoznawania mowy do wygenerowania najbardziej prawdopodobnej ortograficznej transliteracji nagrań dźwiękowych mowy polskiej. Na początek sygnał audio jest poddawany ekstrakcji cech w postaci ramek czasowych. Użyty został standardowy zestaw 39 cech (głównie MFCC) ze 100 ramkami na sekundę, 25ms nakładaniem się sąsiednich ramek. Następnie ramki są filtrowane używając modułu VAD. Ramki zawierające tylko mowę są następnie poddawane rozpoznawaniu mówców celem adaptacji modelu akustycznego. Model akustyczny modeluje prawdopodobieństwo występowania słów na podstawie obserwowanych cech akustycznych. Wyjściem z modelu akustycznego są fonemy, które muszą zostać zamienione na wyrazy. Robi to moduł konwersji fonemów na grafemy (P2G, phoneme-to-grapheme). Ciągi wyrazów wymagają jednak ułożenia w sekwencję odpowiednią dla gramatyki danego języka. Robi to model językowy, który oblicza prawdopodobieństwo sekwencji wyrazów. Dekoder wybiera sekwencję o najwyższym prawdopodobieństwie i zwraca jako ciąg słów. Słowa te są określone przez słownik, który jest mapowany do wyjścia fonetycznego modelu akustycznego. Konwersja P2G jest istotnym pomostem pomiędzy dźwiękiem mowy oraz zapisem, jaki jest używamy podczas czytania i pisania słów na papierze. Procedura ta jest ważna zarówno w fazie trenowania (do konwersji trenujących transkrypcji na fonemy) oraz podczas normalnego użycia (do konwersji fonemów na tekst czytany).

Publikacja, którą należy cytować w razie użycia

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Materiały pomocniczne:

Serwis przetwarzania mowy – dr inż. Danijel Koržinek

Dostęp

https://mowa.clarin-pl.eu/tools/ui/speech/recognize ; https://mowa.clarin-pl.eu:8433/

Link do instrukcji

https://mowa.clarin-pl.eu:8433/docs/doc.html#asr ; https://mowa.clarin-pl.eu:8433/apidoc/index.html#api-Narz%C4%99dzia-RECTool

Przykładowe zastosowania

transkrypcja materiału audio

VAD

Nazwa

VAD – Detekcja mowy (voice activity detection)

Opis

Detekcja mowy (Voice activity detection: VAD) jest często używana na etapie pre-processingu do wielu narzędzi przetwarzania mowy, gdyż dane audio są zwykle niemonogeniczne i zawierają zmiksowane fragmenty mowy, muzyki, tła oraz ciszę. Rozróżnienie pomiędzy tymi różnymi typami audio jest niezwykle istotne dla uzyskania wysokiej skuteczności systemu do transkrypcji. Jego celem jest odizolowanie części zawierających mowę od części zawierających inny typ zdarzeń (cisza, szum, muzyka itp.). Narzędzie to jest całkowicie niezależne od języka oraz domeny wypowiedzi, niemniej jednak może generować błędy przy bardzo zaszumionych danych. Niewielki eksperyment potwierdził wysoki poziom czułości (Recall ~ 99%) oraz średnią precyzję (Precision ~ 58%). Było to jednak zamierzonym celem, aby nie utracić żadnych części zawierających mowę, akceptując czasami fragmenty, które jej nie zawierają. Jest to spowodowane tym, iż pozostałe narzędzia akceptują niewielką ilość zaszumionych danych, ale działają błędnie gdy jakakolwiek część mowy zostaje pominięta.

Publikacja, którą należy cytować w razie użycia

Danijel Koržinek, Krzysztof Marasek, Łukasz Brocki and Krzysztof Wołk: Polish Read Speech Corpus for Speech Tools and Services, Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resourcesand Technology Infrastructure, number 136, pages 54–62. LinköpingUniversity Electronic Press, Linköpings universitet, 2017.

Materiały pomocniczne:

Serwis przetwarzania mowy – dr inż. Danijel Koržinek

Dostęp

https://mowa.clarin-pl.eu/tools/ui/speech/vad ; https://mowa.clarin-pl.eu:8433/

Link do instrukcji

https://mowa.clarin-pl.eu:8433/docs/doc.html#det ; https://mowa.clarin-pl.eu:8433/apidoc/index.html#api-Narz%C4%99dzia-VADTool

Przykładowe zastosowania

analiza aktywności mowy w nagraniu; wizualizacja nagrania