什么是TF-IDF模型？_tfidf模型

作者：Cpp五条 | 2024-04-04 09:44:55

踩

tfidf模型

F-IDF模型（term frequency–inverse document frequency，词频与逆向文件频率）。TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库的重要程度。TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的词频高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF-IDF有两个值，一个是词频率，另一个是IDF（inverse document frequency，逆向文件频率）。如图中的计算方式。

举个例子，库中10000篇文档，10000篇提到“母牛”，其中10篇提到“产奶量”，比如一篇关于“母牛的产奶量”的文字，这篇文章有100个词，“母牛”出现5次，“产奶量”出现2次)。

通过计算发现，虽然“母牛”的词频率很高，但IDF值很低，最后“母牛”的TF-IDF很低，也就是说这个词不具太大的标识度。而“产奶量”这个词的词频率不高，但它的辨识度很高，最终它的TF-IDF也很高。

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/357821