当前位置:   article > 正文

jieba分词_jieba.cut()方法返回的类型

jieba.cut()方法返回的类型

1. jieba.cut():返回的是一个迭代器。参数cut_all是bool类型,默认为False,即精确模式,当为True时,则为全模式

2. jieba.lcut(): 返回的是列表。

3. jieba.cut_for_search()是搜索引擎模式

4.  添加自定义词典

使用默认字典时,一些新的词汇无法正确分词

  1. #添加自定义词典
  2. text1 = '无妻徒刑,厉害炸了,卷积神经网络'
  3. seg_list1 = jieba.cut(text1, cut_all=False)
  4. print("/ ".join(seg_list1))
  5. 无妻/ 徒刑/ ,/ 厉害/ 炸/ 了/ ,/ 卷积/ 神经网络

将这三个新词加入字典后

 
  1. jieba.load_userdict('myDict.txt') # file_name为自定义词典的路径
  2. seg_list1 = jieba.cut(text1, cut_all=False)
  3. print("/ ".join(seg_list1))
  4. 无妻徒刑/ ,/ 厉害炸了/ ,/ 卷积神经网络

5. jieba.tokenize(): 返回词在原文的位置,下例中的result是一个迭代器。

 

 
  1. result = jieba.tokenize(u'永和服装饰品有限公司')
  2. for tk in result:
  3. print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
  4. word 永和 start: 0 end:2
  5. word 服装 start: 2 end:4
  6. word 饰品 start: 4 end:6
  7. word 有限公司 start: 6 end:10

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/348426?site
推荐阅读
相关标签
  

闽ICP备14008679号