当前位置:   article > 正文

python调用Hanlp NER API小记_python hanlp ner

python hanlp ner

最近使用Jclass调用Hanlp中的接口遇到一些问题,在这里记下

Ubuntu
Python 3.6.9
pyhanlp (0.1.63)

code

# -*- coding: utf-8 -*-
# Author:SlytherinWyne

from pyhanlp import *

#繁体转简体
def TraditionalChinese2SimplifiedChinese(sentence_str):
    HanLP = JClass('com.hankcs.hanlp.HanLP')
    return HanLP.convertToSimplifiedChinese(sentence_str)

#切词&命名实体识别与词性标注(可以粗略识别)
def NLP_tokenizer(sentence_str):
    NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
    return NLPTokenizer.segment(sentence_str)

#地名识别,标注为ns
def Place_Recognize(sentence_str):
    HanLP = JClass('com.hankcs.hanlp.HanLP')
    segment = HanLP.newSegment().enablePlaceRecognize(True)
    return HanLP.segment(sentence_str)

#人名识别,标注为nr
def PersonName_Recognize(sentence_str):
    HanLP = JClass('com.hankcs.hanlp.HanLP')
    segment = HanLP.newSegment().enableNameRecognize(True)
    return HanLP.segment(sentence_str)

#机构名识别,标注为nt
def Organization_Recognize(sentence_str):
    HanLP = JClass('com.hankcs.hanlp.HanLP')
    segment = HanLP.newSegment().enableOrganizationRecognize(True)
    return HanLP.segment(sentence_str)

test_sentence="分詞工具機構名識別,签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家,南翔向宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机,济南杨铭宇餐饮管理有限公司是由杨先生创办的餐饮企业"
sentence = TraditionalChinese2SimplifiedChinese(test_sentence)
print(sentence)
result1 = NLP_tokenizer(sentence)
print(result1)
result2 = Place_Recognize(sentence)
result3 = PersonName_Recognize(sentence)
print(result3)
result4 = Organization_Recognize(sentence)
print(result4)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
分词工具机构名识别,签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家,南翔向宁夏固原市彭阳县红河镇黑牛沟村捐赠了挖掘机,济南杨铭宇餐饮管理有限公司是由杨先生创办的餐饮企业
[分词/n, 工具/n, 机构/n,/q, 识别/vn, ,/w, 签约/vn, 仪式/n,/f,/w, 秦光荣/nr,/w, 李纪恒/nr,/w, 仇和/nr,/u, 一同/d, 会见/v,/u, 参加/v, 签约/v,/u, 企业家/n, ,/w, 南翔/nr,/p, 宁夏固原市彭阳县红河镇黑牛沟村/ns, 捐赠/v,/u, 挖掘机/n, ,/w, 济南杨铭宇餐饮管理有限公司/nt,/v,/p,/nr, 先生/n, 创办/v,/u, 餐饮企业/nz]
[分词/n, 工具/n, 机构/n,/q, 识别/vn, ,/w, 签约/vi, 仪式/n,/f,/w, 秦光荣/nr,/w, 李纪恒/nr,/w, 仇和/nr,/udeng, 一同/d, 会见/v,/ule, 参加/v, 签约/vi,/ude1, 企业家/nnt, ,/w, 南翔/ns,/p, 宁夏/ns, 固原市/ns, 彭阳县/ns, 红河镇/ns,/a,/n,/n,/n, 捐赠/v,/ule, 挖掘机/n, ,/w, 济南/ns, 杨铭宇/nr, 餐饮/n, 管理/vn, 有限公司/nis,/vshi,/p, 杨先生/nr, 创办/v,/ude1, 餐饮企业/nz]
[分词/n, 工具/n, 机构/n,/q, 识别/vn, ,/w, 签约/vi, 仪式/n,/f,/w, 秦光荣/nr,/w, 李纪恒/nr,/w, 仇和/nr,/udeng, 一同/d, 会见/v,/ule, 参加/v, 签约/vi,/ude1, 企业家/nnt, ,/w, 南翔/ns,/p, 宁夏/ns, 固原市/ns, 彭阳县/ns, 红河镇/ns,/a,/n,/n,/n, 捐赠/v,/ule, 挖掘机/n, ,/w, 济南/ns, 杨铭宇/nr, 餐饮/n, 管理/vn, 有限公司/nis,/vshi,/p, 杨先生/nr, 创办/v,/ude1, 餐饮企业/nz]
[分词/n, 工具/n, 机构/n,/q, 识别/vn, ,/w, 签约/vi, 仪式/n,/f,/w, 秦光荣/nr,/w, 李纪恒/nr,/w, 仇和/nr,/udeng, 一同/d, 会见/v,/ule, 参加/v, 签约/vi,/ude1, 企业家/nnt, ,/w, 南翔/ns,/p, 宁夏/ns, 固原市/ns, 彭阳县/ns, 红河镇/ns,/a,/n,/n,/n, 捐赠/v,/ule, 挖掘机/n, ,/w, 济南/ns, 杨铭宇/nr, 餐饮/n, 管理/vn, 有限公司/nis,/vshi,/p, 杨先生/nr, 创办/v,/ude1, 餐饮企业/nz]
  • 1
  • 2
  • 3
  • 4
  • 5

可以看到打开地名、人名、机构名识别结果是一样的。按照作者博客中的cascaded HMM理论,得到的结果应该是不一样的。且明显看到,粗分的结果要更好。
应该与Hanlp中的具体实现有关。

reference

  1. https://www.jianshu.com/p/d7e7cc747e56
  2. https://www.hankcs.com/nlp/ner/place-name-recognition-model-of-the-stacked-hmm-viterbi-role-labeling.html
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/736551
推荐阅读
相关标签
  

闽ICP备14008679号