赞
踩
TF-IDF(Term Frequency–Inverse Document Frequency)是一种统计方法,用以评估一个“词”对于一个文件集或一个语料库中的其中一份文件的重要程度。“词”的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其中,TF是词频(Term Frequency),IDF是逆向文件频率(Inverse Document Frequency)。
1.TF(词频)
在一份给定的文件里,词频(Term Frequency)是指某一个给定的词语在该文件中出现的频率。这个数字通常是对词数(词在文件中的出现的次数)的归一化会处理,以防止它偏向长的文件,因为同一个词语在长文件里会比在短文件里可能有更高的词频,而不管该词语重要与否。
具体公式:
(1)没有归一化处理
表示词x在第j个文件中出现的次数
(2)归一化处理方式一
其中分子表示词x在第j个文件中出现的次数,分母表示在第j个文件中的总词数。
(3)归一化处理方式二
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。