python识别中文人名_中文人名识别

作者：我家自动化 | 2024-08-05 03:19:14

踩

人名识别

中文姓名的构成规律

中文姓名一般由二字或三字组成，第一字为姓氏字（复姓为前两字），其后的一到两个汉字为名用字。统计表明，中文姓名在用字上也有一定规律：一方面某些字频频出现在姓名中，如在姓氏用字中，虽然姓氏辞典中列举了几千个姓氏字，但目前实际使用的不过几百个，而张、王、李、赵、刘5个姓竟占了32%；另一方面，某些字又从不被用作姓名用字，如最、仅、紧、以、且等字。根据这一特性，首先从一个含有1万多个人名的数据库中抽取303个姓用字和1047个名用字，形成系统的知识源；然后根据姓名的构成原则制定了一组姓名构成规则集，其中的规则以姓氏字驱动。由于中文姓名的构成是严格遵守构成规则的，因而本文将姓名构成规则定义为一组必须匹配的严格规则。

姓名的上下文环境分析

中文姓名在文本中不是孤立存在的，其依存的上下文信息具有一定的特点:

1、前置信息：姓名的前端多冠有对人的职业、职务及与说话人的关系的称谓，如“这是上海市副市长刘振元日前在与上海旅游记者协会座谈时介绍的。”、“我和妻子秦润英都是双目失明的盲人。”等。在上述句子中的“市长”和“妻子”就是人名“刘振元”和“秦润英”的前置提示信息。

2、后置信息：姓名的后端多随有对此人的职业、职务及与说话人的关系的称谓，如“我国著名学者彭明教授访问前苏联时将书稿复印件全文带回。”，这里的“教授”就成为人名“彭明”的后置提示信息。

3、提示动词：某些动词多随在姓名和人称代词后，如“说、指出、告诉、通知…”，可充分利用这些词的提示作用。

Hanlp 进行人名识别

HanLP 是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/930569