NLP基础学习4--tfidf和互信息_互信息与tfidf有什么关系

作者：从前慢现在也慢 | 2024-03-15 05:27:15

踩

互信息与tfidf有什么关系

继续做早鸟，首先这一期的任务提纲：

TF-IDF原理。
文本矩阵化，使用词袋模型，以TF-IDF特征值为权重。（可以使用Python中TfidfTransformer库）
互信息的原理。
使用第二步生成的特征矩阵，利用互信息进行特征筛选

TF-IDF原理

感觉在word2vec 特别是现在的contextual word embedding之后，利用tf-idf直接向量化文本几乎已经弃用了，但是tf-idf作为权重，用来进行句子或者篇章中词向量的加权，也依然在被使用。
第一次接触tf-idf是很早以前，读吴军先生的《数学之类》[5]的时候，当时就被一系列文本向量化的表示和操作所吸引。回到主题，tf-idf实际上是两个指标，即tf Term Frequency，词频，idf Inverse Document Frequency 逆文本频率。

TF-IDF的主要思想是：如果某个词在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词具有很好的类别区分能力，适合用来分类。
形式化的表达为： $tf_{i,j} = \frac{n_{i,j}}{\sum_k n_{k,j}}$ ， $idf_i = \frac{|D|}{|{j:t_i \in D_j}|}$ ， $t f$ - $idf _i= tf_{i,j} * idf_i$ 。其中i 表示词 $i$ , $j$ 表示所属文章 $D_j$ , $∣ x ∣$ 表示集合 $x$ 中元素的个数。

以TF-IDF特征值为权重的文本矩阵化

直接上代码

# -*- coding: utf-8 -*-
# @Time : 2019/4/12 11:43
# @Author : Lei Wang
# @Site : 
# @File : tfidf.py
# @Software: PyCharm


import pkuseg
from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

text = []
with open(r'..\cnews\cnews.train.txt', 'r', encoding = 'utf-8') as fsource:
    text_line= fsource.readline()
    seg = pkuseg.pkuseg()
    seg_list = seg.cut(text_line)
    text.extend(seg_list)

with open(r'..\stoplist_baidu.txt', 'r', encoding = 'utf-8') as fstop:
    content = fstop.read()
    stop_words = content.split('\n')


count_vectorizer = CountVectorizer(stop_words=stop_words)
tfidf_transformer = TfidfTransformer()
tfidf = tfidf_transformer.fit_transform(count_vectorizer.fit_transform(text))
print (tfidf)

print('-------------给个小一点的例子--------------')

corpus = [          'This is the first document.',
		'This is the second second document.',
		'And the third one.',
		'Is this the first document?',
		]

s_count_vectorizer = CountVectorizer()
s_tfidf_transformer = TfidfTransformer()
s_tfidf = s_tfidf_transformer.fit_transform(s_count_vectorizer.fit_transform(corpus))
print (s_tfidf)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43

结果截图：
在这里插入图片描述

互信息的原理

谈起互信息这个话题，还是依着《数学之美》[5]思路，先从信息和熵的定义开始说。信息是用来消除不确定性的。换句话说，知道的信息越多，不确定性就越低。对于一个变量 $X$ ，如果我们知道，我们知道它的分布 $P (X)$ ，则可以定义它的信息熵为： $\sum_{x \in X} P(x) logP(x)$ 。这里继续给出条件熵的概念，类比于条件概率分布， $H(X|Y)=-\sum_{x \in X,y \in Y} P(x,y)logP(x|y)$ 那么问题来了，互信息呢？互信息其实是用来度量两个事件的相关性，其定义如下：

$-\sum_{x \in X,y \in Y} \frac{P(x,y)}{P(x)P(y)} = H(X) - H(X|Y)$

关于互信息，其实我当年做过一个很有意思的推导，就是想推导多元的互信息熵。我当时只是推导了三元，基本结论是
$\sum log\frac{P(xyz)P(z)}{P(xz)P(yz)}$
正确性有待各位有心的观众检验，多元互信息的表达我参考文献[6]。
关于互信息，数学之美上还有一个关于tf-idf的信息学解释，有兴趣可以去看书的108-109页的相关内容，写的非常清晰易懂，这里就不再赘述了。

既然写到这里，那就顺便写一下深度学习中最常用的相对熵和交叉熵。相对熵，也就是KL散度的定义，他是用来衡量两个取值为正的函数f(X)和g(X)的相似性，即
$KL(f(X)||g(X))=\sum_{x \in X} f(x) log\frac{f(x)}{g(x)}$ , 而交叉熵则是 $H(f(x),g(x))=-\sum_{x \in X} f(x) logg(x) = H(f(x)) +KL(f(x)||g(x))$ 。当然这两个熵也都有对应的连续变量形式的表达。可以看出：

两个完全相同的函数，交叉熵为0
交叉熵越大，两个函数差异越大；反之亦然
对于概率密度或者概率分布函数，如果取值均大于0，交叉熵可以度量两个随机分布的差异性

利用互信息进行特征筛选

特征选择指的是删除了原始特征里和结果预测关系不大的特征，而不像降维会去做特征的计算组合构成了新的特征。这里参考了文献[7]
常用的方法有：过滤法，包裹法和嵌入法

1. 过滤型

方法：评价单个特征和结果之间的相关程度，排序留下Top相关的部分。
评价方式：Pearson相关系数、互信息
缺点：没有考虑到特征之间的关联作用，可能把有用的关联特征踢掉。因此工业界使用的比较少
python包：SelectKBest指定过滤个数、SelectPercentile指定过滤的百分比

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
iris = load_iris()
X, y = iris.data, iris.target
X.shape
1
2
3
4
5
6

(150, 4)

X_new = SelectKBest(chi2, k = 2).fit_transform(X, y)
X_new.shape
1
2

(150, 2)

2.包裹型

方法：把特征选择看做一个特征子集搜索问题，筛选各种特征子集，用模型评估效果（递归特征删除算法，RFE）。
应用在LR上过程：用全量特征跑一个模型；删掉5~10%的弱特征，观察准确率/AUC的变化；逐步进行，直至准确率/AUC出现大的下滑停止。
python：RFE

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
boston = load_boston()
X = boston["data"]
Y = boston["target"]
names = boston["feature_names"]
lr = LinearRegression()
rfe = RFE(lr, n_features_to_select = 1)
rfe.fit(X, Y)
print("Features sorted by their rank:")
print(sorted(zip(map(lambda x: round(x, 4), rfe.ranking_),names)))
1
2
3
4
5
6
7
8
9
10
11
12

Features sorted by their rank:
[(1, ‘NOX’), (2, ‘RM’), (3, ‘CHAS’), (4, ‘PTRATIO’), (5, ‘DIS’), (6, ‘LSTAT’), (7, ‘RAD’), (8, ‘CRIM’), (9, ‘INDUS’), (10, ‘ZN’), (11, ‘TAX’), (12, ‘B’), (13, ‘AGE’)]

3.嵌入型

方法：根据模型来分析特征重要性，最常见的方式为正则化方式来做特征选择
举例：举个例子，最早在电商用LR做CRT预估，在3-5亿维系数的特征上用L1正则化的LR模型。剩余2-3千万的feature，意味着其他的feature的重要程度不够。
python：feature_selection.SelectFromModel选出权重不为0的特征

from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel
iris = load_iris()
X, y = iris.data, iris.target
X.shape
1
2
3
4
5
6

(150, 4)

lsvc = LinearSVC(C = 0.01, penalty = "l1", dual = False).fit(X, y)
model = SelectFromModel(lsvc, prefit = True)
X_new = model.transform(X)
X_new.shape
1
2
3
4

(150, 3)

回到主题，如何利用互信息进行特征筛选, 还是利用sklearn的库，因为这个需要标签，所以用了IMDB，代码如下

# -*- coding: utf-8 -*-
# @Time : 2019/4/13 12:11
# @Author : Lei Wang
# @Site : 
# @File : feature_selection.py
# @Software: PyCharm

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import mutual_info_classif


#选择K个最好的特征，返回选择特征后的数据
#arr = SelectKBest(mutual_info_classif, k=2).fit_transform(tfidf, target[:99])


from nltk.corpus import stopwords
import collections
import pandas as pd
import numpy as np
import os
import codecs

pos_list=[]

with open('../Sentiment_IMDB/aclImdb/train/pos_all.txt','r',encoding='utf8')as f:
    line=f.readlines()
    pos_list.extend(line)
neg_list=[]
with open('../Sentiment_IMDB/aclImdb/train/neg_all.txt','r',encoding='utf8')as f:
    line=f.readlines()
    neg_list.extend(line)
#创建标签
label=[1 for i in range(12500)]
label.extend([0 for i in range(12499)])
#评论内容整合
content=pos_list.extend(neg_list)
content=pos_list

stop_words=set(stopwords.words('english'))
count_vectorizer = CountVectorizer(stop_words=stop_words)
tfidf_transformer = TfidfTransformer()
tfidf = tfidf_transformer.fit_transform(count_vectorizer.fit_transform(content))
print (tfidf.shape)

arr = SelectKBest(mutual_info_classif, k=2).fit_transform(tfidf[:24999], label)
print(arr)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50

互信息特征筛选

参考文献

文本挖掘预处理之TF-IDF：文本挖掘预处理之TF-IDF - 刘建平Pinard - 博客园 (https://www.cnblogs.com/pinard/p/6693230.html)
使用不同的方法计算TF-IDF值：使用不同的方法计算TF-IDF值 - 简书(https://www.jianshu.com/p/f3b92124cd2b)
sklearn-点互信息和互信息：sklearn：点互信息和互信息 - 专注计算机体系结构 - CSDN博客 (https://blog.csdn.net/u013710265/article/details/72848755)
如何进行特征选择（理论篇）机器学习你会遇到的“坑”：如何进行特征选择（理论篇）机器学习你会遇到的“坑” (https://baijiahao.baidu.com/s?id=1604074325918456186&wfr=spider&for=pc)
吴军. 数学之美[M]. 人民邮电出版社, 2012
Multivariate mutual information, wiki,(https://en.wikipedia.org/wiki/Multivariate_mutual_information)
bd-liuming ,CSDN(https://blog.csdn.net/fisherming/article/details/79925574 )

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/239112?site