赞
踩
操作系统:Windows 11
应用软件:Jupyter Notebook
1.文档集包含以下5条文本:
"我是中国人,我爱中国"
"我是上海人"
"我住在上海松江大学城"
"松江大学城有很多大学"
"大学城共有15万余大学生"
2.用TF-IDF模型提取邮件特征,朴素贝叶斯模型训练分类模型实现垃圾邮件识别并分析模型性能。
提示: from sklearn.naive_bayes import GaussianNB
clf = GaussianNB() #模型初始化
clf.fit(X, y) #模型训练
词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。识别垃圾邮件是邮箱系统的重要功能。通常把邮件分为两类,即正常邮件和垃圾邮件。当邮箱系统收到一封邮件时,先从邮件的发件人、收件人、标题、附件、邮件正文等文本中提取特征,自动判断其是否为垃圾邮件,然后对应地放入用户的垃圾箱或收件箱。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。