Parallel Corpora
Name
Bilingual (Polish-Bulgarian) parallel corpora of contemporary texts:
- Polish-Bulgarian
- Polish-Lithuanian
- Polish-Ukrainian
- Polish-Russian
Description
Parallel Corpora are a constantly developing bilingual resource. The corpora contain manually parallelised contemporary texts:
- Polish-Bulgarian Corpus: Polish and Bulgarian with a total volume of more than 27.5 million word forms.
- Polish-Lithuanian Corpus: Polish and Lithuanian with a total volume of more than 16.5 million word forms.
- Polish-Ukrainian Corpus: Polish and Ukrainian with a total volume of more than 1.2 million word forms.
- Polish-Russian Corpus: Polish and Russian with a total volume of more than 5.6 million word forms.
All functional styles are represented in the Corpora. The colloquial speech is shown in film dialogues. In addition to the translations (from Polish into Russian or from Russian into Polish), the corpus includes translations from third languages. Currently, the work on full resource rigging is being completed, including lemmatization and morphological-syntactic annotation of all the word-forms. The selection of corpus resources was guided by the principle of ensuring high representation of various lexems and terms. Great emphasis was placed on the presentation of new lexics typical of colloquial speech, which is visible in many movie dialogues.
Versions
-
Name
Polish-Bulgarian Parallel Corpus – bilingual (Polish-Bulgarian) parallel corpus of contemporary texts.
Description
The Polish-Bulgarian Corpus is a constantly developing bilingual resource. It contains manually aligned contemporary Polish and Bulgarian texts with a total volume of more than 27.5 million words. All functional styles are represented in the Corpus. The colloquial speech is shown in film dialogues. In addition to the translations (from Polish into Bulgarian or from Bulgarian into Polish), the corpus includes translations from third languages. Currently, the work on full resource rigging is being completed, including lemmatization and morphological-syntactic annotation of all the word-forms. The selection of corpus resources was guided by the principle of ensuring high representation of various lexems and terms.
Bibliographic address of the main publication (in case of using the Polish-Bulgarian Corpus, please cite this publication)
Roszko, Roman; Roszko, Danuta; Sosnowski, Wojciech; et al., 2018, Polish-Bulgarian Parallel Corpus, CLARIN-PL digital repository, http://hdl.handle.net/11321/536 lub Roszko, D., Roszko, R., & Sosnowski, W. (2018). Polsko-bułgarskie korpusy IS PAN i CLARIN-PL. Slavica Lodziensia, 2018(2), 59-71. https://doi.org/10.18778/2544-1795.02.05
Auxiliary materials
Presentation from CLARIN-PL workshops: http://clarin-pl.eu/wp-content/uploads/2019/10/Korpusy-wieloj%C4%99zyczne-i-KonText-wprowadzenie.pdf
Korpusy wielojęzyczne: polsko-slawistyczno-bałtystyczne – dr hab. R. Roszko
Access
Corpus page with a downloadable version: https://clarin-pl.eu/dspace/handle/11321/536
Corpus search engine: https://kontext.clarin-pl.eu/run.cgi/first_form#Link to the manual
KonText corpus search engine manual:
https://nextcloud.clarin-pl.eu/index.php/s/fzAZg9xbxA4YEdu
KonText manual companion (short version):
https://nextcloud.clarin-pl.eu/index.php/s/IsIriR9v5HopamlExamples of application
Banasiak, Jakub (2018). Wokół problemów semantycznej kategorii określoności/nieokreśloności i struktury tematyczno-rematycznej w języku bułgarskim i polskim. Slavica Lodziensia, 2018(2).
Sosnowski W., Blagoeva D., & Jaskot M. (2019a). Kŭm vŭprosa za mezhduezikovata ekvivalentnost pri frazeologiyata (leksikografski aspekti). In Vanya Micheva, Diana Blagoeva, Sia Kolkovska, Tatyana Aleksandrova, Hristina Deykova (Eds.). International Annual Conference of the Institute for Bulgarian Language (pp. 76-82). Sofia: Instytut Języka Bułgarskiego BAN, ISBN 978-954-322-987-1.
Sosnowski W., Blagoeva D., & Jaskot M. (2019b). A lexicographical approach to the contrastive analysis of Bulgarian and Polish phraseology, Cognitive Studies/ Études cognitives, 19, 1-17. DOI: https://doi.org/10.11649/cs.1923
Sosnowski W., Blagoeva D., & Jaskot M. (2019c). O koncepcji „Leksykonu aktywnej frazeologii bułgarskiej i polskiej”. Izvestiya na Instituta za bŭlgarski ezik ‘Prof. Lyubomir Andreĭchin ’, 32, 134-159.
Satoła-Staśkowiak, J. (2010). From momentarity to perfective multiplicity. Different aspects of the aorist. Cognitive Studies/Études cognitives, 10, 127–132, DOI: https://doi.org/10.11649/cs.2010.007
Koseska-Toszewa, V., & Satoła-Staśkowiak, J. (2014). Wprowadzenie teoretyczno-metodologiczne do „Współczesnego słownika bułgarsko-polskiego”. In A. Kisiel (Ed.), Współczesny słownik bułgarsko-polski (pp. 1–18). Warszawa: Instytut Slawistyki PAN.
Korytkowska M., Koseska-Toszewa V., & Roszko R. (2007). Polsko-bułgarska gramatyka konfrontatywna. Warszawa: Wydawnictwo Akademickie Dialog.
Sosnowski, Wojciech, Kisiel, Anna oraz Koseska-Toszewa Violetta (2016). Leksykon odpowiedniości semantycznych w języku polskim, bułgarskim i rosyjskim. T. 1. Warszawa: Instytut Slawistyki PAN
Sosnowski, W. P., & Satoła-Staśkowiak, J. (2019). Contrastive analysis of feminitives in Bulgarian, Polish and Russian.Cognitive Studies | Etudes Cognitives, 2019(19). https://doi.org/10.11649/cs.1922
Blagoeva, D., Jaskot, M. P., & Sosnowski, W. (2019). A lexicographical approach to the contrastive analysis of Bulgarian and Polish phraseology. Cognitive Studies | Etudes Cognitives, 2019(19). https://doi.org/10.11649/cs.1923
Sosnowski, Wojciech, Blagoeva, Diana oraz Kolkovska, Sia (2018). Frazeologichni inovatsii v bŭlgarskiia i polskiia ezik. Balkanistichen forum, 3, 9-20. https://www.ceeol.com/search/journal-detail?id=1069
Sosnowski, Wojciech, Blagoeva, Diana oraz Tymoshuk, Roman (2018). New Bulgarian, Polish, Ukrainian Phraseology and language corpora. Cognitive Studies | Etudes Cognitives, 18, 1-13. DOI: https://doi.org/10.11649/cs.1768
Banasiak, Jakub (2018). Wokół problemów semantycznej kategorii określoności/nieokreśloności i struktury tematyczno-rematycznej w języku bułgarskim i polskim. Slavica Lodziensia, 2018(2).
-
Name
Polish-Lithuanian Parallel Corpus – bilingual (Polish-Lithuanian) parallel corpus of contemporary texts.
Description
The Polish-Lithuanian Corpus is a constantly developing bilingual resource. It contains manually aligned contemporary Polish and Lithuanian texts with a total volume of more than 16.5 million words. All functional styles are represented in the Corpus. The colloquial speech is shown in film dialogues. In addition to the translations (from Polish into Lithuanian or from Lithuanian into Polish), the corpus includes translations from third languages. Currently, the work on full resource rigging is being completed, including lemmatization and morphological-syntactic annotation of all the word-forms. The selection of corpus resources was guided by the principle of proportional representation of particular functional styles and providing a high number of lexems and terms. The broad inclusion of texts, which are mutual translations, representing legal and specialized language deserves special mention.
Bibliographic address of the main publication (in case of using the Polish-Lithuanian Corpus, please cite this publication):
Roszko, Roman and Roszko, Danuta, 2018, Polish-Lithuanian Parallel Corpus “2”, CLARIN-PL digital repository, http://hdl.handle.net/11321/539 lub Roszko, Danuta and Roszko, Roman (2018). Polsko-litewskie korpusy IS PAN i CLARIN-PL. In Prace bałtystyczne 7 (ss. 185-205).
Auxiliary materials
Prezentacja z warsztatów CLARIN-PL: http://clarin-pl.eu/wp-content/uploads/2019/10/Korpusy-wieloj%C4%99zyczne-i-KonText-wprowadzenie.pdf
Korpusy wielojęzyczne: polsko-slawistyczno-bałtystyczne – dr hab. R. Roszko
Access
Corpus page with a downloadable version: https://clarin-pl.eu/dspace/handle/11321/539
Corpus search engine: https://kontext.clarin-pl.eu/run.cgi/first_form#Link to the manual
KonText corpus search engine manual:
https://nextcloud.clarin-pl.eu/index.php/s/fzAZg9xbxA4YEdu
KonText manual companion (short version):
https://nextcloud.clarin-pl.eu/index.php/s/IsIriR9v5HopamlExamples of applications
Danuta Roszko, Roman Roszko (2016), Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej z zakresu modalności możliwościowej i kwantyfikacji zakresowej In: Ewa Gruszczyńska,
Agnieszka Leńko-Szymańska, Polskojęzyczne korpusy równoległe. Polishlanguage Parallel Corpora, s. 119-132. Warszawa. http://rownolegle.blog.ils.uw.edu.pl/files/2016/03/0000_Korpusy.pdfRoszko, D. (2006). Funkcjonalne odpowiedniki litewskiego perfectum w litewskiej gwarze puńskiej i w języku polskim. Warszawa: Instytut Slawistyki PAN.
Roszko, D., Roszko, R. (2012). Znachenija gipotetichnosti v litovskom, pol’skom jazykah i v litovskom govore okrestnostej Punska v Pol’she. Baltistica, 47(1), 73–88.
https://doi.org/10.15388/baltistica.47.1.2133Roszko, R. (2004). Semantyczna kategoria określoności/nieokreśloności w języku litewskim (w zestawieniu z językiem polskim). Warszawa: Instytut Slawistyki PAN.
Danuta Roszko (2016). The Use of the Lexical Exponents of Hypothetical Modality in Polish and Lithuanian. “Cognitive Studies | Études cognitives“ 16. DOI: https://doi.org/10.11649/cs.2016.005
Danuta Roszko, Roman Roszko (2014), A Net Presentation of Lithuanian Sentences Containing Verbal Forms with the Grammatical Suffix -dav-, “Cognitive Studies | Études cognitives” 14, 173–182; DOI: 10.11649/cs.2014.014
Danuta Roszko (2015). Zagadnienia kwantyfikacyjne i modalne w litewskiej gwarze puńskiej (Na tle literackich języków polskiego i litewskiego), Instytut Slawistyki PAN, Warszawa, ss. 342.
Danuta Roszko, Roman Roszko (2016), Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej z zakresu modalności możliwościowej i kwantyfikacji zakresowej In: Ewa Gruszczyńska,
Agnieszka Leńko-Szymańska, Polskojęzyczne korpusy równoległe. Polishlanguage Parallel Corpora, s. 119-132. Warszawa. http://rownolegle.blog.ils.uw.edu.pl/files/2016/03/0000_Korpusy.pdf
-
Name
Polish-Ukrainian Parallel Corpus – bilingual (Polish-Ukrainian) parallel corpus of contemporary texts.
Description
The Polish-Ukrainian Corpus is a constantly developing bilingual resource. It contains manually aligned contemporary Polish and Ukrainian texts with a total volume of more than 1.2 million words. The Corpus features a predominance of works representing fiction, colloquial style and specialized language. The colloquial speech is visible in film dialogues. Translations from third languages prevail in the corpus. Currently, the work on the full rigging of the resources is being completed, including lemmatization and morphological-syntactic annotation of all the word-forms. Soon, a large translation resource representing press language and fiction, among others, will be added. The selection of corpus resources was guided by the principle of ensuring high representation of various lexems and terms.
Bibliographic address of the main publication (in case of using the Polish-Ukrainian Corpus, please cite this publication):
Auxiliary materials
Presentation from CLARIN-PL workshops: http://clarin-pl.eu/wp-content/uploads/2019/10/Korpusy-wieloj%C4%99zyczne-i-KonText-wprowadzenie.pdf
Korpusy wielojęzyczne: polsko-slawistyczno-bałtystyczne – dr hab. R. Roszko
Access
Corpus page with a downloadable version: https://clarin-pl.eu/dspace/handle/11321/535
Corpus search engine: https://kontext.clarin-pl.eu/run.cgi/first_form#Link to the manual
KonText corpus search engine manual:
https://nextcloud.clarin-pl.eu/index.php/s/fzAZg9xbxA4YEdu
KonText manual companion (short version):
https://nextcloud.clarin-pl.eu/index.php/s/IsIriR9v5HopamlExamples of applications
Sosnowski, Wojciech, Blagoeva, Diana oraz Tymoshuk, Roman (2018). New Bulgarian, Polish, Ukrainian Phraseology and language corpora. Cognitive Studies | Etudes Cognitives, 18, 1-13. DOI: https://doi.org/10.11649/cs.1768
Sosnowski, W., Blagoeva, D., & Tymoshuk, R. (2018). New Bulgarian, Polish, and Ukrainian phraseology and language corpora. Cognitive Studies/Études cognitives, 2018(18), 1–13. DOI: https://doi.org/10.11649/cs.1768
Sosnowski, W., & Tymoshuk, R. (2017). Konfrontacja językowa polskich i ukraińskich jednostek frazeologicznych na przykładzie materiału z leksykonu aktywnej frazeologii polskiej i ukraińskiej. In D. Blagoeva, L. Andreĭchin (Eds.), Bilgarsko-polski studii (91–108). Bŭlgarska akademiya na naukite institut za bŭlgarski ezik.
Sosnowski, W., & Tymoshuk, R. (2017). Novi pidkhody do stvorennya suchasnykh frazeolohichnykh slovnykiv (na materiali «Leksykona pol’s’koyi ta ukrayins’koyi aktyvnoyi frazeolohiyi»). Movoznavstvo, 2, 69–77.
Sosnowski, W., & Tymoshuk, R. (2017). On „The dictionary of active Polish and Ukrainian phraseology”. Contrastive linguistics and culture. Cognitive Studies/ Études cognitives, 2017(17). DOI: https://doi.org/10.11649/cs.1317
Sosnowski, W., & Tymoshuk, R. (2017), O rabote nad „Leksikonom pol’skoj i ukrainskoj aktivnoj frazeologii”. In L. Janovec, R. K. Brabcová, V. Skibina, Z. Wildová (Eds.), Svět v obrazech a ve frazeologii / World in Pictures and in Phraseology (pp. 269–276). Univerzita Karlova, Pedagogická fakulta. ISBN 978-80-7290-964-3.
Jaskot, M., & Sosnowski, W. (2017). O fałszywych przyjaciołach tłumacza na przykładzie Leksykonu aktywnej frazeologii polskiej i ukraińskiej. In Barbara Borkowska-Kępska, Grzegorz Gwóźdź (Eds.), LSP Perspectives 2. Języki specjalistyczne – nowe perspektywy 2 (pp. 55–62). Dąbrowa Górnicza: Wyższa Szkoła Biznesu w Dąbrowie Górniczej. ISBN 978-83-65621-30–6.
Jaskot, M., Ganoszenko, Ju., Sosnowski, W., & Tymoshuk, R. (2017), Leksykon aktywnej frazeologii polskiej i ukraińskiej. Warszawa: KJV Digital. ISBN 978-83-946640-2-2.
Sosnowski, Wojciech, Blagoeva, Diana oraz Tymoshuk, Roman (2018). New Bulgarian, Polish, Ukrainian Phraseology and language corpora. Cognitive Studies | Etudes Cognitives, 18, 1-13. DOI: https://doi.org/10.11649/cs.1768
-
Name
Polish-Russian Parallel Corpus – bilingual (Polish-Russian) parallel corpus of contemporary texts.
Description
The Polish-Russian Corpus is a constantly developing bilingual resource. It contains manually aligned contemporary Polish and Russian texts with a total volume of more than 5.6 million words. All functional styles are represented in the Corpus. The colloquial speech is shown in film dialogues. In addition to the translations (from Polish into Russian or from Russian into Polish), the corpus includes translations from third languages. Currently, the work on full resource rigging is being completed, including lemmatization and morphological-syntactic annotation of all the word-forms. The selection of corpus resources was guided by the principle of ensuring high representation of various lexems and terms. Great emphasis was placed on the presentation of new lexics typical of colloquial speech, which is visible in many movie dialogues.
Bibliographic address of the main publication (in case of using the Polish-Russian Corpus, please cite this publication):
Auxiliary materials
Presentation from CLARIN-PL workshops: http://clarin-pl.eu/wp-content/uploads/2019/10/Korpusy-wieloj%C4%99zyczne-i-KonText-wprowadzenie.pdf
Korpusy wielojęzyczne: polsko-slawistyczno-bałtystyczne – dr hab. R. Roszko
Access
Corpus page with a downloadable version: https://clarin-pl.eu/dspace/handle/11321/534
Corpus search engine: https://kontext.clarin-pl.eu/run.cgi/first_form#Link to the manual
KonText corpus search engine manual:
https://nextcloud.clarin-pl.eu/index.php/s/fzAZg9xbxA4YEdu
KonText manual companion (short version):
https://nextcloud.clarin-pl.eu/index.php/s/IsIriR9v5HopamlExamples of applications
Sosnowski, Wojciech (2017). Kategoria adresatywności w bułgarskich, polskich i rosyjskich opracowaniach leksykograficznych. Problemy i rozwiązania. W Barbara Borkowska-Kępska oraz Grzegorz Gwóźdź (Red.), LSP Perspectives 2. Języki specjalistyczne – nowe perspektywy 2 (ss. 129-140). Dąbrowa Górnicza: Wyższa Szkoła Biznesu.
Duszkin, Maksim. (2010). Wykładniki przybliżoności adnumeratywnej w języku polskim i rosyjskim. Warszawa: Slawistyczny Ośrodek Wydawniczy.
Sosnowski, Wojciech, Kisiel, Anna oraz Koseska-Toszewa Violetta (2016). Leksykon odpowiedniości semantycznych w języku polskim, bułgarskim i rosyjskim. T. 1. Warszawa: Instytut Slawistyki PAN
Sosnowski, W. P., & Satoła-Staśkowiak, J. (2019). Contrastive analysis of feminitives in Bulgarian, Polish and Russian.Cognitive Studies | Etudes Cognitives, 2019(19). https://doi.org/10.11649/cs.1922
Sosnowski, Wojciech (2017). Kategoria adresatywności w bułgarskich, polskich i rosyjskich opracowaniach leksykograficznych. Problemy i rozwiązania. W Barbara Borkowska-Kępska oraz Grzegorz Gwóźdź (Red.), LSP Perspectives 2. Języki specjalistyczne – nowe perspektywy 2 (ss. 129-140). Dąbrowa Górnicza: Wyższa Szkoła Biznesu.