Show simple item record

 
dc.contributor.author Kocoń, Jan
dc.date.accessioned 2014-09-25T11:58:16Z
dc.date.available 2014-09-25T11:58:16Z
dc.date.issued 2010-06-29
dc.identifier.uri http://hdl.handle.net/11321/9
dc.description Proces przetwarzania umożliwia pobranie zawartości serwisów internetowych. Wejściem dla procesu jest lista adresów URL, na wyjściu uzyskuje się zbiór plików zawierających najbardziej istotną zawartość (tylko tekst, np. treść artykułu, bez dodatkowych informacji na stronie) najbardziej istotnych podstron (tylko podstrony zawierające tekst w odpowiedniej ilości, bez zawartości typu obrazy, filmy, itp.). Pliki pogrupowane są według źródła - dla każdego linku z wejściowej listy tworzony jest osobny katalog, w którym znajdują się pliki. Każdy plik jest osobną podstroną. Najbardziej istotna zawartość jest poddana filtrowaniu (domyślnie dokument powinien mieć min. 300 znaków istotnych (należących do tokenów) oraz min. 20% słów musi być znanych (znajdować się w słowniku Morfeusz). Dokumenty po filtrowaniu są tagowane przy pomocy narzędzia WCRFT
dc.language.iso pol
dc.language.iso eng
dc.publisher Wrocław University of Technology
dc.source.uri http://nlp.pwr.wroc.pl/redmine/projects/corpora/wiki/Corpus-SUCK
dc.title Corpus-SUCK
dc.type toolService
metashare.ResourceInfo#ContactInfo#PersonInfo.givenName Jan
metashare.ResourceInfo#ContactInfo#PersonInfo.surname Kocoń
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo.organizationName Wrocław University of Technology
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo#CommunicationInfo.email jan.kocon@pwr.wroc.pl
metashare.ResourceInfo#ContentInfo.detailedType tool
metashare.ResourceInfo#ResourceComponentType#ToolServiceInfo.languageDependent false
hidden false
hasMetadata false
has.files no
branding CLARIN-PL


Show simple item record