当前位置:   article > 正文

【NLP】互信息_文本互信息计算

文本互信息计算

【任务4 -文本表示】

  1. TF-IDF原理。
  2. 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)
  3. 互信息的原理。
  4. 使用第二步生成的特征矩阵,利用互信息进行特征筛选。

互信息

互信息是衡量两个随机变量的相关性,也就是一个随机变量中包含的关于另一个随机变量的信息量,所谓的随机变量,即随机试验结果的量的表示,可以简单理解为按照一个概率分布进行取值的变量,比如随机抽查的一个人的身高就是一个随机变量。 可以看出,互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。
在这里插入图片描述

from sklearn import metrics as mr
mr.mutual_info_score(label,x
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/239107
推荐阅读
相关标签
  

闽ICP备14008679号