赞
踩
这两年在工作中接触过三种分词器:IK、jieba、word分词器,有的是在搜索引擎中使用过,有的是在NLP(自然语言处理)中使用的,不能说某个分词器不好,只能说他们有各自适合的应用场景。
IK可能是目前中文分词器中使用的最多的分词器了,尤其是在搜索引擎领域,一般我们都会选择它,表现也确实不错,而且作者在最新的版本中增加了热更新词库功能,免去了每次修改词库重启服务的麻烦,还是很棒的,它是中文分词器的首选。
jieba分词器我们在做自然语言处理的时候我们应用过,它本身是Python中的分词器,有一个团队实现了它的java版本,但是这个java版本的分词器只实现了部分功能,如果把它用作自然语言处理的话还可以,但不要把它用作搜索引擎的分词器,我记得是因为它分词的粒度不够细,不适合搜索引擎使用。
我们之前有个项目,我的同事负责自然语言处理部分,他用的就是这款分词器,效果还不错,我负责是搜索引擎部分的工作,为了统一分词器,我也使用了word分词器用于搜索引擎,但是遇到了两个问题后来就放弃了。
我不能说哪种分词器不好,他们都有各自的优势,当然还有很多其他优秀的中文分词器,但以上三种分词器是我在实际工作中实实在在接触过的分词器,一些简单的经验总结分享给大家。
如有说的不对的地方,请多指教!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。