Korpusy Równoległe

Nazwa

Dwujęzyczne korpusy równoległe tekstów współczesnych:

  • polsko-bułgarski
  • polsko-litewski
  • polsko-ukraiński
  • polsko-rosyjski

Opis

Korpusy równoległe są nieustannie rozwijanym zasobem dwujęzycznym. Korpusy zawierają ręcznie zrównoleglone współczesne teksty:

  • Polsko-Bułgarski Korpus: polskie i bułgarskie o łącznej objętości przekraczającej 27,5 mln słowoform.
  • Polsko-Litewski Korpus: polskie i litewskie o łącznej objętości przekraczającej 16,5 mln słowoform.
  • Polsko-Ukraiński Korpus: polskie i ukraińskie o łącznej objętości przekraczającej 1,2 mln słowoform.
  • Polsko-Rosyjski Korpus: polskie i rosyjskie o łącznej objętości przekraczającej 5,6 mln słowoform.

W korpusach reprezentowane są wszystkie style funkcjonalne. Mowa potoczna jest uwidoczniona w dialogach filmowych. Poza tłumaczeniami wzajemnymi (z polskiego na dany język obcy lub z danego języka obcego na polski) w korpusach znalazły się przekłady z języków trzecich. Obecnie na ukończeniu są prace nad pełnym otagowaniem zasobów, obejmującym lematyzację i anotację morfologiczno-syntaktyczną wszystkich słowoform. W doborze zasobów korpusowych kierowano się zasadą zapewnienia wysokiej reprezentacji różnorodnych leksemów i terminów.

Wersje