当前位置:   article > 正文

TF-IDF 详解

tf-idf

TF-IDF(Term Frequency–Inverse Document Frequency)是一种统计方法,用以评估一个“词”对于一个文件集或一个语料库中的其中一份文件的重要程度。“词”的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其中,TF是词频(Term Frequency),IDF是逆向文件频率(Inverse Document Frequency)。

 

1.TF(词频)

在一份给定的文件里,词频(Term Frequency)是指某一个给定的词语在该文件中出现的频率。这个数字通常是对词数(词在文件中的出现的次数)的归一化会处理,以防止它偏向长的文件,因为同一个词语在长文件里会比在短文件里可能有更高的词频,而不管该词语重要与否。

具体公式:

(1)没有归一化处理

TF(x)=N_{x,j} 表示词x在第j个文件中出现的次数

(2)归一化处理方式一

TF(x)=\frac{^{n_{x,j}}}{^{\sum_{k}n_{k,j}}}

其中分子表示词x在第j个文件中出现的次数,分母表示在第j个文件中的总词数。

(3)归一化处理方式二

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号