当前位置:   article > 正文

NLP-中文文本预处理

中文文本预处理

jieba

jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。

中文不同于英文可以通过空格分开每个有意义的词,对于中文需要一个工具将完整的文本分割成更细致的词语,类似于英文分词中使用的nltk工具,中文中需要使用jieba。

pip install jieba
  • 1

目录


1.基本分词函数

  • jieba.cut()接受三个输入参数
    ①需要进行分词的字符串
    ②cut_all控制是否采用全模式
    ③HMM参数控制是否使用HMM模型

  • jieba.cut_for_search()接受两个参数
    ①需要进行分词的字符串
    ②是否使用HMM模型
    (该方法用于搜索引擎构建倒排索引的分词中)

  • jieba.lcut()以及jieba.lcut_for_search()直接返回list
import jieba
word = jieba.cut('他去了杭研大厦',cut_all=False)
#精确模式
#结果:他/去/了/杭
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/356716
推荐阅读
相关标签
  

闽ICP备14008679号