• CLARIN-PL Repository Home
  • View Item
  •  
  •   What can you do?
  •   Browse  
    •    All of the Repository  
      •   Issue Date
      •   Authors
      •   Titles
      •   Subjects
      •   Publisher
      •   Language
      •   Type
      •   Rights Label
  •   My Account  
    •    Login via Your home institution
    •    Register
  •   Statistics  
    •    StatisticsBETA
  •   General Information  
    •    Deposit
    •    Cite
    •    Submission Lifecycle
    •    FAQ
    •    About and Policies
    •    Help Desk
 
 

Corpus-SUCK

 
CLARIN-PL
  Authors
Kocoń, Jan
 Project URL
http://nlp.pwr.wroc.pl/redmine/projects/corpora/wiki/Corpus-SUCK
 Date issued
2010-06-29
 Type
toolService
 Language(s)
Polish , English
 Description
Proces przetwarzania umożliwia pobranie zawartości serwisów internetowych. Wejściem dla procesu jest lista adresów URL, na wyjściu uzyskuje się zbiór plików zawierających najbardziej istotną zawartość (tylko tekst, np. treść artykułu, bez dodatkowych informacji na stronie) najbardziej istotnych podstron (tylko podstrony zawierające tekst w odpowiedniej ilości, bez zawartości typu obrazy, filmy, itp.). Pliki pogrupowane są według źródła - dla każdego linku z wejściowej listy tworzony jest osobny katalog, w którym znajdują się pliki. Każdy plik jest osobną podstroną. Najbardziej istotna zawartość jest poddana filtrowaniu (domyślnie dokument powinien mieć min. 300 znaków istotnych (należących do tokenów) oraz min. 20% słów musi być znanych (znajdować się w słowniku Morfeusz). Dokumenty po filtrowaniu są tagowane przy pomocy narzędzia WCRFT
 Publisher
Wrocław University of Technology
 Collection(s)
CLARIN-PL
Show full item record
 
 
  • © 2024 CLARIN-PL. All Rights Reserved.
  • Base on DSpace modified by UFAL MFF UK and CLARIN-PL
  • Privacy policy | Licenses