赞
踩
实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。
从用户需求层面看,文本分类、文本聚类等技术能从大量的文本集合中筛选或组合出用户所需要的文本或段落。而实体关系抽取则可以从更小粒度的文本句子中挖掘出用户所需要的语义关系信息,给用户提供一项更精细的服务。实体关系抽取的结果可用于构建知识图谱或本体知识库,用户可从中检索和使用所需要的知识。实体关系抽取还能为自动问答系统的构建提供数据支持。当用户向自动问答系统提问时,自动问答系统能从其结构化数据库中快速准确地检索到答案并提供给用户。从理论价值层面看,实体关系抽取技术能为其它自然语言处理技术提供理论支持。实体关系抽取在语义网络标注、篇章理解、机器翻译方面具有重要的研究意义。
1998 年, 美国国防高级研究计划委员会( defense advanced research project agency, DARPA) 资助的最后一届消息理解会议( message understanding conference, MUC) 首次引入了实体关系抽取任务 。MUC 中的模板关系( template relation) 是对实体关系的最早描述。
1999 年, 美国国家标准技术研究院 ( nationalinstitute of standards and technology, NIST) 组织了自动内容抽取( automatic content extraction, ACE)评测,其中的一项重要评测任务就是实体关系识别 。ACE 实体关系语料定了 7 大类实体, 包括人物、组织、设施、处所、地理政治实体、车辆、武器,其中每个大类又分为多个子类。其中,中文语料由国内的哈工大自然语言处理实验室标注, 语料文本主要来自广播新闻( 40% ) 、新闻专线( 40% ) 和网络对话 ( 20% ) 。从 2009 年开始, ACE 被归入文本分析会议( text Analysis conference, TAC) , 成为了Knowledge Base Population 任 务 的 主 要 组 成部分 。
MUC、ACE 评测会议的实体关系抽取涉
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。