当前位置:   article > 正文

python命名实体识别工具包 结巴_分词、词性标注、命名实体识别、句法分析?三行Python代码调用斯坦福自然语言处理工具~...

starfordnlp 分词功能

工具简介

对文本进行处理或分析时,我们往往会对其进行分词、词性标注等。目前开源可用的工具有Jieba、HanLP、ltp等。今天要介绍一款来自斯坦福NLP研究组的高质量的开源自然语言处理工具 Stanford CoreNLP,主要功能有分词、词性标注、命名实体识别、短语结构分析、依存句法分析。

相较于市面上较为流行的自然语言处理工具,Stanford CoreNLP主要有以下优势:训练语料标注质量较高,中英文语料来自著名的宾州树库,因而自动标注的质量也较好,适用于对标注准确率要求较高的领域,如语言学研究等。

一站式服务,该工具集成了自然语言处理的常用功能。

性能高,支持并行(多条句子同时)分析。

但Stanford CoreNLP是用Java编写的,调用较为复杂,因此我将python调用方式进行了封装,并发布了pip包(corenlp-client),方便用户使用。安装方式为:

pip install corenlp_client

快速入门

调用该工具对文本进行分词,只需3行代码:

from corenlp_client import CoreNLP # 导入CoreNLP类

annotator = CoreNLP(url="https://corenlp.run", lang="zh") # 创建标注器对象

print(annotator.tokenize("今天天气不错!我想去故宫博物院。")) # 分词

返回的是一个分词后的句子列表:

[['今天', '天气', '不错', '

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号