TF-IDF

Nazwa

TF-IDF

Opis

TF-IDF (z ang. TF – term frequency, IDF – inverse document frequency) jest podstawowym narzędziem, które wykorzystywane jest w bardziej złożonych aplikacjach (np. w WebSty). Narzędzie to jest jedną z metod obliczania wagi słów na podstawie liczby ich wystąpień. Należy do grupy algorytmów obliczających statystyczne wagi terminów. Każdy dokument reprezentowany jest przez wektor, składający się z wag słów występujących w tym dokumencie. TF-IDF informuje o częstości wystąpienia termów, uwzględniając jednocześnie odpowiednie wyważenie znaczenia lokalnego terminu i jego znaczenia w kontekście pełnej kolekcji dokumentów.  

Algorytm stosowany jako metoda oceny relewantności dokumentu. Kolejnym zastosowaniem jest ocena podobieństwa dokumentów w systemach grupowania wyników oraz systemach typu antyplagiat. 

Dostęp