dc.contributor.author |
Kocoń, Jan |
dc.date.accessioned |
2014-09-25T11:58:16Z |
dc.date.available |
2014-09-25T11:58:16Z |
dc.date.issued |
2010-06-29 |
dc.identifier.uri |
http://hdl.handle.net/11321/9 |
dc.description |
Proces przetwarzania umożliwia pobranie zawartości serwisów internetowych. Wejściem dla procesu jest lista adresów URL, na wyjściu uzyskuje się zbiór plików zawierających najbardziej istotną zawartość (tylko tekst, np. treść artykułu, bez dodatkowych informacji na stronie) najbardziej istotnych podstron (tylko podstrony zawierające tekst w odpowiedniej ilości, bez zawartości typu obrazy, filmy, itp.). Pliki pogrupowane są według źródła - dla każdego linku z wejściowej listy tworzony jest osobny katalog, w którym znajdują się pliki. Każdy plik jest osobną podstroną. Najbardziej istotna zawartość jest poddana filtrowaniu (domyślnie dokument powinien mieć min. 300 znaków istotnych (należących do tokenów) oraz min. 20% słów musi być znanych (znajdować się w słowniku Morfeusz). Dokumenty po filtrowaniu są tagowane przy pomocy narzędzia WCRFT |
dc.language.iso |
pol |
dc.language.iso |
eng |
dc.publisher |
Wrocław University of Technology |
dc.source.uri |
http://nlp.pwr.wroc.pl/redmine/projects/corpora/wiki/Corpus-SUCK |
dc.title |
Corpus-SUCK |
dc.type |
toolService |
metashare.ResourceInfo#ContactInfo#PersonInfo.givenName |
Jan |
metashare.ResourceInfo#ContactInfo#PersonInfo.surname |
Kocoń |
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo.organizationName |
Wrocław University of Technology |
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo#CommunicationInfo.email |
jan.kocon@pwr.wroc.pl |
metashare.ResourceInfo#ContentInfo.detailedType |
tool |
metashare.ResourceInfo#ResourceComponentType#ToolServiceInfo.languageDependent |
false |
hidden |
false |
hasMetadata |
false |
has.files |
no |
branding |
CLARIN-PL |