当前位置:   article > 正文

jieba分词,自定义词库分词 java语言_中文分词工具类jieba maven

中文分词工具类jieba maven

其实这是一个解决JAVA端使用Jeba分词的方式。Jeba相较于其他产品的优势是双向匹配分词

GITHUB地址:https://github.com/huaban/jieba-analysis

第一步引用Maven

  1. <!-- Jeba分词器 几年没更新了GitHub-->
  2. <dependency>
  3. <groupId>com.huaban</groupId>
  4. <artifactId>jieba-analysis</artifactId>
  5. <version>1.0.2</version>
  6. </dependency>

第二步自定义词词典:

创建的文件结构以及文件名称:dicts/jieba.dict

自定义的词典请放到:resource/dicts/jieba.dict

自定义词词库的内容

  1. 塑料 3 n
  2. 塑料管件 3 n
  3. 塑料管 3 n
  4. 管件 3 n

第三步调用:

  1. public void contextLoadsJeba() {
  2. String text = "塑料管件" ;
  3. System.out.println( "Jeba 分词 -------------" );
  4. JiebaSegmenter segmenter = new JiebaSegmenter();
  5. System.out.println(segmenter.process( text , JiebaSegmenter.SegMode.INDEX).toString());
  6. System.out.println("加载自定义词库的信息,开始做自定义词库的分词------->>>>>>>>");
  7. // 词典路径为Resource/dicts/jieba.dict
  8. Path path = Paths.get(new File( getClass().getClassLoader().getResource("dicts/jieba.dict").getPath() ).getAbsolutePath() ) ;
  9. //加载自定义的词典进词库
  10. WordDictionary.getInstance().loadUserDict( path ) ;
  11. //重新分词
  12. segmenter = new JiebaSegmenter();
  13. System.out.println(segmenter.process( text , JiebaSegmenter.SegMode.INDEX).toString());
  14. }

搞定

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/243315
推荐阅读
相关标签
  

闽ICP备14008679号