Corpus-SUCK

Kocoń, Jan

dc.contributor.author	Kocoń, Jan
dc.date.accessioned	2014-09-25T11:58:16Z
dc.date.available	2014-09-25T11:58:16Z
dc.date.issued	2010-06-29
dc.identifier.uri	http://hdl.handle.net/11321/9
dc.description	Proces przetwarzania umożliwia pobranie zawartości serwisów internetowych. Wejściem dla procesu jest lista adresów URL, na wyjściu uzyskuje się zbiór plików zawierających najbardziej istotną zawartość (tylko tekst, np. treść artykułu, bez dodatkowych informacji na stronie) najbardziej istotnych podstron (tylko podstrony zawierające tekst w odpowiedniej ilości, bez zawartości typu obrazy, filmy, itp.). Pliki pogrupowane są według źródła - dla każdego linku z wejściowej listy tworzony jest osobny katalog, w którym znajdują się pliki. Każdy plik jest osobną podstroną. Najbardziej istotna zawartość jest poddana filtrowaniu (domyślnie dokument powinien mieć min. 300 znaków istotnych (należących do tokenów) oraz min. 20% słów musi być znanych (znajdować się w słowniku Morfeusz). Dokumenty po filtrowaniu są tagowane przy pomocy narzędzia WCRFT
dc.language.iso	pol
dc.language.iso	eng
dc.publisher	Wrocław University of Technology
dc.source.uri	http://nlp.pwr.wroc.pl/redmine/projects/corpora/wiki/Corpus-SUCK
dc.title	Corpus-SUCK
dc.type	toolService
metashare.ResourceInfo#ContactInfo#PersonInfo.givenName	Jan
metashare.ResourceInfo#ContactInfo#PersonInfo.surname	Kocoń
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo.organizationName	Wrocław University of Technology
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo#CommunicationInfo.email	jan.kocon@pwr.wroc.pl
metashare.ResourceInfo#ContentInfo.detailedType	tool
metashare.ResourceInfo#ResourceComponentType#ToolServiceInfo.languageDependent	false
hidden	false
hasMetadata	false
has.files	no
branding	CLARIN-PL

Show simple item record