当前位置:   article > 正文

知识图谱1(实体抽取)

实体抽取

对于知识图谱而言,首要的问题是:如何从海量的数据提取有用信息并将得到的信息有效表示并储存,就是所谓的知识抽取与表示技术

知识抽取与表示技术(信息抽取),其目标主要是从样本源中抽取特定种类的信息,例如,实体、关系和属性,并将这些信息通过一定形式表达并储存。它分为:实体抽取、关系抽取和属性抽取。

本文重点介绍实体抽取。实体抽取也称为命名实体识别。实体是知识图谱最基本的元素,实体抽取的完整性、准确率、召回率将直接影响知识图谱的质量。


复习一下准确率和召回率。

 

混淆矩阵中T、F、P、N的含义:

T:真  F:假  P:阳性  N:阴性

则TP: 真阳性  TN:真阴性  FP:假阳性  FN:假阴性

正确率(你认为对的中,有多少确实是对的,所占的比率)

precision = \frac{TP}{TP+FP}

召回率(本来是对的,你找回了多少对的,所占的比率):

Recall = \frac{TP}{TP+FN} 


实体抽取的方法归纳为3种:

(1)基于规则与词典的方法:通常需要为目标实体编写相应的规则,然后在原始语料中进行匹配。

(2)基于统计机器学习的方法:主要利用数据来对模型进行训练,然后再利用训练好的模型去识别实体。

(3)面向开放域的抽取方法:主要是针对海量网络数据。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/348977
推荐阅读
相关标签
  

闽ICP备14008679号