当前位置:   article > 正文

词袋模型特征和TF-IDF模型实现垃圾邮件识别_tf-idf训练词袋模型

tf-idf训练词袋模型
  • 实验目的
  1. 掌握jieba库的使用,学会中文分词、词性标注、特征提取。
  2. 掌握词袋模型特征和TF-IDF模型。
  3. 了解案例:垃圾邮件识别。
  • 实验环境

  操作系统:Windows 11

  应用软件:Jupyter Notebook

  • 实验内容与结果(题目、源程序、运行结果)

1.文档集包含以下5条文本

"我是中国人,我爱中国"

"我是上海人"

"我住在上海松江大学城"

"松江大学城有很多大学"

"大学城共有15万余大学生"

2.用TF-IDF模型提取邮件特征,朴素贝叶斯模型训练分类模型实现垃圾邮件识别并分析模型性能。

提示from sklearn.naive_bayes import GaussianNB

clf = GaussianNB() #模型初始化

clf.fit(X, y) #模型训练

  • 实验总结

词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。识别垃圾邮件是邮箱系统的重要功能。通常把邮件分为两类,即正常邮件和垃圾邮件。当邮箱系统收到一封邮件时,先从邮件的发件人、收件人、标题、附件、邮件正文等文本中提取特征,自动判断其是否为垃圾邮件,然后对应地放入用户的垃圾箱或收件箱。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/730975
推荐阅读
相关标签
  

闽ICP备14008679号