NLP-中文文本预处理

作者：我家自动化 | 2024-04-03 22:20:05

踩

中文文本预处理

jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。

中文不同于英文可以通过空格分开每个有意义的词，对于中文需要一个工具将完整的文本分割成更细致的词语，类似于英文分词中使用的nltk工具，中文中需要使用jieba。

pip install jieba1

import jieba
word = jieba.cut('他去了杭研大厦',cut_all=False)
#精确模式
#结果：他/去/了/杭1
2
3
4

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/356716