| dc.contributor.author | Marcińczuk, Michał |
| dc.contributor.author | Krautforst, Michał |
| dc.date.accessioned | 2017-02-13T07:05:46Z |
| dc.date.available | 2017-02-13T07:05:46Z |
| dc.date.issued | 2017-02-13 |
| dc.identifier.uri | http://hdl.handle.net/11321/336 |
| dc.description | Zestaw skryptów w języku Python do wygenerowania słownika odmiany fraz w oparciu o linki wewnętrzne Wikipedii. Efektem analizy dumpa Wikipedii jest zestaw plików, zawierających: A) wikilinks-difflen.txt — frazy mają różną liczbę tokenów, B) wikilinks-samelen* — frazy mają taką samą liczbę tokenów, 1. wikilinks-samelen-textbase.txt — każda para tokenów ma przynajmniej jedną wspólną formę bazową, 1.a) wikilinks-samelen-textbase-one.txt — frazy zawierają po jednym tokenie, 1.b) wikilinks-samelen-textbase-multi.txt — frazy zawierają więcej niż jeden token, 2. wikilinks-samelen-rules.txt — co najmniej jedna para tokenów nie została dopasowana przez formy bazowe, tylko przez zastosowanie reguł podmiany końcówek dla formy tekstowej. 3. wikilinks-samelen-different.txt — pozostałe frazy, które nie zostały dopasowane. Przykład zawartości pliku wikilinks-samelen-textbase-multi.txt: Transformacja ustrojowa transformacji ustrojowej transformacji ustrojowych Konstytucja ZSRR Konstytucji ZSRR Rajd Tatrzański Rajdzie Tatrzańskim Macierz dyskowa macierzą dyskową macierzy dyskowych Osiedle Ptasie Osiedle Ptasie objaw Brudzińskiego objawy Brudzińskiego Chłopskie Stronnictwo Radykalne Chłopskiego Stronnictwa Radykalnego Melanie Klein Melanią Klein Jakub Sokołowski Jakuba Sokołowskiego Letnie Igrzyska Olimpijskie Młodzieży 2010 Letnich Igrzysk Olimpijskich Młodzieży 2010 wyrabianie ciasta wyrabiania ciasta bitwa nad rzeką Czoroch bitwie nad rzeką Czoroch Nerw błędny nerwu błędnego nerwów błędnych Pakt trzech paktu trzech Paktu Trzech Paktu trzech Komisja Episkopatu Polski ds. Ekumenizmu Komisji Episkopatu Polski ds. Ekumenizmu Flaga Albanii flagę Albanii flagi Albanii Bitwa pod Chrobrzem bitwie pod Chrobrzem Patriarcha Indii Zachodnich patriarchę Indii Zachodnich procesy fizjologiczne proces fizjologiczny energetyka jądrowa energetykę jądrową energetyce jądrowej energetyką jądrową energetyki jądrowej zdanie syntetyczne zdania syntetyczne Franciszek Ksawery Franciszek Ksawery Franciszka Ksawerego Franciszkiem Ksawerym Obwód Tirana obwodzie Tirana |
| dc.language.iso | pol |
| dc.publisher | Wrocław University of Science and Technology |
| dc.rights | GNU LGPL 3.0 |
| dc.rights.uri | http://www.gnu.org/licenses/lgpl.html |
| dc.rights.label | PUB |
| dc.subject | Wikipedia |
| dc.subject | multi-word phrase inflection |
| dc.subject | dictionary |
| dc.title | python-g419wikitools-1.0 |
| dc.type | toolService |
| metashare.ResourceInfo#ContentInfo.detailedType | tool |
| metashare.ResourceInfo#ResourceComponentType#ToolServiceInfo.languageDependent | false |
| hidden | false |
| hasMetadata | false |
| has.files | yes |
| branding | CLARIN-PL |
| contact.person | Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Wrocław University of Science and Technology |
| sponsor | Ministry of Science and Higher Education (Poland) 6358/IA/119/2013 CLARIN-PL nationalFunds |