赞
踩
jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。
中文不同于英文可以通过空格分开每个有意义的词,对于中文需要一个工具将完整的文本分割成更细致的词语,类似于英文分词中使用的nltk工具,中文中需要使用jieba。
pip install jieba
jieba.cut()接受三个输入参数
①需要进行分词的字符串
②cut_all控制是否采用全模式
③HMM参数控制是否使用HMM模型
jieba.cut_for_search()接受两个参数
①需要进行分词的字符串
②是否使用HMM模型
(该方法用于搜索引擎构建倒排索引的分词中)
import jieba
word = jieba.cut('他去了杭研大厦',cut_all=False)
#精确模式
#结果:他/去/了/杭
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。