赞
踩
就是给每一个词确定一个词性分类。很多场景需要做词性标注,然后基于标注的词性可以做进一步应用。例如统计竞争对手新闻稿的主要词语分布、分词结果筛选和过滤、配合文章标签的提取等。
结巴分词的词性标注方法采用和ictclas兼容的标记法。常用的分类如下:
使用jieba.posseg做带有词性标注的分词,并通过循环得到每个分词的词语和类别结果;
import newspaper
import pandas as pd
import jieba.posseg as pseg
# 加载停用词
stopWords = [line
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。