赞
踩
最近使用Jclass调用Hanlp中的接口遇到一些问题,在这里记下
Ubuntu
Python 3.6.9
pyhanlp (0.1.63)
# -*- coding: utf-8 -*- # Author:SlytherinWyne from pyhanlp import * #繁体转简体 def TraditionalChinese2SimplifiedChinese(sentence_str): HanLP = JClass('com.hankcs.hanlp.HanLP') return HanLP.convertToSimplifiedChinese(sentence_str) #切词&命名实体识别与词性标注(可以粗略识别) def NLP_tokenizer(sentence_str): NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer') return NLPTokenizer.segment(sentence_str) #地名识别,标注为ns def Place_Recognize(sentence_str): HanLP = JClass('com.hankcs.hanlp.HanLP') segment = HanLP.newSegment().enablePlaceRecognize(True) return HanLP.segment(sentence_str) #人名识别,标注为nr def PersonName_Recognize(sentence_str): HanLP = JClass('com.hankcs.hanlp.HanLP') segment = HanLP.newSegment().enableNameRecognize(True) return HanLP.segment(sentence_str) #机构名识别,标注为nt def Organization_Recognize(sentence_str): HanLP = JClass('com.hankcs.hanlp.HanLP') segment = HanLP.newSegment().enableOrganizationRecognize(True) return HanLP.segment(sentence_str) test_sentence="分詞工具機構名識別,签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家,南翔向宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机,济南杨铭宇餐饮管理有限公司是由杨先生创办的餐饮企业" sentence = TraditionalChinese2SimplifiedChinese(test_sentence) print(sentence) result1 = NLP_tokenizer(sentence) print(result1) result2 = Place_Recognize(sentence) result3 = PersonName_Recognize(sentence) print(result3) result4 = Organization_Recognize(sentence) print(result4)
分词工具机构名识别,签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家,南翔向宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机,济南杨铭宇餐饮管理有限公司是由杨先生创办的餐饮企业
[分词/n, 工具/n, 机构/n, 名/q, 识别/vn, ,/w, 签约/vn, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/u, 参加/v, 签约/v, 的/u, 企业家/n, ,/w, 南翔/nr, 向/p, 宁夏固原市彭阳县红河镇黑牛沟村/ns, 捐赠/v, 了/u, 挖掘机/n, ,/w, 济南杨铭宇餐饮管理有限公司/nt, 是/v, 由/p, 杨/nr, 先生/n, 创办/v, 的/u, 餐饮企业/nz]
[分词/n, 工具/n, 机构/n, 名/q, 识别/vn, ,/w, 签约/vi, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/udeng, 一同/d, 会见/v, 了/ule, 参加/v, 签约/vi, 的/ude1, 企业家/nnt, ,/w, 南翔/ns, 向/p, 宁夏/ns, 固原市/ns, 彭阳县/ns, 红河镇/ns, 黑/a, 牛/n, 沟/n, 村/n, 捐赠/v, 了/ule, 挖掘机/n, ,/w, 济南/ns, 杨铭宇/nr, 餐饮/n, 管理/vn, 有限公司/nis, 是/vshi, 由/p, 杨先生/nr, 创办/v, 的/ude1, 餐饮企业/nz]
[分词/n, 工具/n, 机构/n, 名/q, 识别/vn, ,/w, 签约/vi, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/udeng, 一同/d, 会见/v, 了/ule, 参加/v, 签约/vi, 的/ude1, 企业家/nnt, ,/w, 南翔/ns, 向/p, 宁夏/ns, 固原市/ns, 彭阳县/ns, 红河镇/ns, 黑/a, 牛/n, 沟/n, 村/n, 捐赠/v, 了/ule, 挖掘机/n, ,/w, 济南/ns, 杨铭宇/nr, 餐饮/n, 管理/vn, 有限公司/nis, 是/vshi, 由/p, 杨先生/nr, 创办/v, 的/ude1, 餐饮企业/nz]
[分词/n, 工具/n, 机构/n, 名/q, 识别/vn, ,/w, 签约/vi, 仪式/n, 前/f, ,/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/udeng, 一同/d, 会见/v, 了/ule, 参加/v, 签约/vi, 的/ude1, 企业家/nnt, ,/w, 南翔/ns, 向/p, 宁夏/ns, 固原市/ns, 彭阳县/ns, 红河镇/ns, 黑/a, 牛/n, 沟/n, 村/n, 捐赠/v, 了/ule, 挖掘机/n, ,/w, 济南/ns, 杨铭宇/nr, 餐饮/n, 管理/vn, 有限公司/nis, 是/vshi, 由/p, 杨先生/nr, 创办/v, 的/ude1, 餐饮企业/nz]
可以看到打开地名、人名、机构名识别结果是一样的。按照作者博客中的cascaded HMM理论,得到的结果应该是不一样的。且明显看到,粗分的结果要更好。
应该与Hanlp中的具体实现有关。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。