当前位置:   article > 正文

sklearn.feature_extraction.text.TfidfVectorizer函数解析

tfidfvectorizer函数

1. TfidfVectorizer

这个函数的输入是分词后的列表,输出是tfidf的矩阵。

其实这个函数是以下CountVectorizer和TfidfTransformer的组合:

vectorizer = CountVectorizer(min_df=1e-5) # drop df < 1e-5,去低频词
X = vectorizer.fit_transform(corpus_set)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)

 

2. TfidfVectorizer.build_tokenizer()

TfidfVectorizer中的这个函数可以返回token。

token和原始输入略有区别,如下图所示,token里没有了标点符号,以及一些单个的字。

这是 因为里边内置了一个参数:token_pattern,默认会只选择2个及以上的字母或者数字。

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/350086
推荐阅读
相关标签
  

闽ICP备14008679号