当前位置:   article > 正文

CountVectorizer, TfidfVectorizer的联合使用_countvectorizer series

countvectorizer series

简单来讲:CountVectorizer统计各个词语出现的次数;TfidfVectorizer统计各个词语的重要性。

1.CountVectorizer

CountVectorizer:统计个数
使用:cntv = CountVectorizer();  cntv.fit_transform(train[col])  #train[col]是一个series,它返回一个存储格式(row,num1) -- num2,row是说train[col]中的数据有几行,num1是指数据中词语的序号,因为CountVectorizer()方法会自动给每个词语标上序号。num2就是指序号为num1的词语有几个。

2.TfidfVectorizer

计算方法:

如图:

 例子:网上的图,其中有错误的地方,我已改正一处,其他类似

 使用时:

  1. tfv = TfidfVectorizer(ngram_range=(1, 2), min_df=3, max_df=0.9, use_idf=1, smooth_idf=1, sublinear_tf=1)
  2. tfv.fit(train[feature].append(test[feature]))
  3. tfv.transform(train[feature])

里面的参数不太重要,看着改。

重要的是,这个函数返回的数据结构类似于CountVectorizer,也是(row,num1) -- num2这样的,唯一不同的是num2是指num1指示的词语的重要程度。(一行就是一篇文章)

这样的话,可以通过

  1. from scipy import sparse
  2. train_x = sparse.hstack((train_x, cntv.transform(train[feature]))).tocsr()
  3. train_x = sparse.hstack((train_x, tfv.transform(train[feature]))).tocsr()
  4. '''
  5. 部分代码,示意
  6. '''

将词语的两种特征很好的结合在一起

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/361124
推荐阅读
相关标签
  

闽ICP备14008679号