sklearn.feature_extraction.text.TfidfVectorizer函数解析

作者：不正经 | 2024-04-01 21:00:44

踩

tfidfvectorizer函数

1. TfidfVectorizer

这个函数的输入是分词后的列表，输出是tfidf的矩阵。

其实这个函数是以下CountVectorizer和TfidfTransformer的组合：

vectorizer = CountVectorizer(min_df=1e-5) # drop df < 1e-5,去低频词
X = vectorizer.fit_transform(corpus_set)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)

2. TfidfVectorizer.build_tokenizer()

TfidfVectorizer中的这个函数可以返回token。

token和原始输入略有区别，如下图所示，token里没有了标点符号，以及一些单个的字。

这是因为里边内置了一个参数：token_pattern，默认会只选择2个及以上的字母或者数字。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/350086