当前位置:   article > 正文

spacy分词器_spacy 中文分词

spacy 中文分词

spacy分词器介绍

spacy使用的中文jieba分词器,接下来对这个分词器进行简单介绍。

分词算法介绍

结巴中文分词涉及到的算法包括:
(1) 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);
(2) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;
(3) 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

分词模式介绍

三种分词模式

精确模式:试图将句子中最精确地切开,适合文本分析;
全模式:把句子中所有可能成词的词语都扫描出来,速度很快,但是不能解决歧义的问题;
搜索引擎模式:在精确模式的基础上,对场次再次切分,提高召回率;

import jieba
text = "我是一只小可爱,我喜欢喝汽水"
print("all search")
print(jieba.lcut(text,cut_all=True))
或者:
print([i for i in jieba.cut(text,cut_all=True)])

print("accurate search")
print(jieba.lcut(text,cut_all=False))
或者:
print([i for i in jieba.cut(text,cut_all=False)])

print("search_for_engineer
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/882024
推荐阅读
相关标签
  

闽ICP备14008679号