赞
踩
TextRank算法是由 Google 搜索的核心网页排序算法 PageRank 改编而来,利用图模型来提取文章中的关键词,首先介绍一下 PageRank 排序算法
PageRank通过网页之间的超链接来确定页面的重要性,它将整个互联网可以看作是一张有向图,网页是图中的节点,网页之间的链接就是图中的边。根据重要性传递的思想,如果一个大型网站A含有一个超链接指向了网页B,那么网页B的重要性排名会根据A的重要性来提升。
构造完图后,使用下面的公式来计算网页i的重要性(PR值):
TextRank在构建图的时候将节点由网页改成了句子,并为节点之间的边引入了权值,其中权值表示两个句子的相似程度,本质上构建的是一个带权无向图,其计算公式如下:
在 TextRank 构建的图中,默认节点就是句子,权重
计算图中各节点的得分时,同样需要给图中的节点指定任意的初值,通常都设为1。然后递归计算直到收敛。
例如要从下面的文本中提取关键词:
1)对这句话分词,去掉里面的停用词
2)现在建立一个大小为 9 的窗口,即相当于每个单词要将票投给它身前身后距离 5 以内的单词:
然后开始迭代投票,直至收敛:
可以看到“程序员”的得票数最多,因而它是整段文本最重要的单词,我们将文本中得票数多的若干单词作为该段文本的关键词。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。