当前位置:   article > 正文

jieba库词频统计_使用python的jieba库中的TF-IDF算法进行关键词提取

python:jieba分词后tf-idf词频统计

cd65e9b509a882108d00818126876d2b.png

目录:

1.什么是关键词?
2.TF-IDF关键词提取算法
3.算法实现

1.什么是关键词?

关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。

关键词提取是文本挖掘领域一个很重要的部分,通过对文本提取的关键词可以窥探整个文本的主题思想,进一步应用于文本的推荐或文本的搜索。

常用的关键词提取算法:TF-IDF算法、TextRank算法

2.TF-IDF关键词提取算法

TF-IDF是关键词提取最基本、最简单易懂的方法。判断一个词再一篇文章中是否重要,一个最容易想到的衡量指标就是词频,重要的词往往在文章中出现的频率也非常高;但另一方面,不是出现次数越多的词就一定重要,因为有些词在各种文章中都频繁出现(例如:我们),那它的重要性肯定不如哪些只在某篇文章中频繁出现的词重要性强。从统计学的角度,就是给予那些不常见的词以较大的权重,而减少常见词的权重,最终得分较高的词语即为关键词。

TF和IDF计算公式如下:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/723269?site
推荐阅读
相关标签
  

闽ICP备14008679号