当前位置:   article > 正文

UCAS - AI学院 - 自然语言处理专项课 - 第13讲 - 课程笔记_ucas自然语言处理

ucas自然语言处理

信息抽取

概述

  • 互联网和社交媒体快速发展
    • 文本信息资源极大丰富
    • 信息过载问题日益显现
  • 高效准确的信息获取手段成为必需
    • (文本)信息抽取技术应运而生
    • 非结构化文本数据占据约80%
  • 信息抽取
    • 从非结构化、半结构化的自然语言文本中抽取实体、实体属性、实体间的关系以及事件等事实信息,并形成结构化数据输出的一种文本数据挖掘技术
  • 信息抽取 vs 信息检索
    • 信息检索:查询——文档——检索相关结果
    • 信息抽取:文档——相关信息抽取和整理(关系、事件、属性)
  • 主要任务
    • 实体识别
    • 实体消歧
    • 关系抽取
    • 事件抽取

命名实体识别

定义

  • 命名实体识别
    • 信息抽取的一项基础任务
    • 自动识别出文本中指定类别的实体,包括人名、地名、机构名、日期、时间和货币等七类
    • 时间、日期、货币和百分比规则性强,利用模板或正则表达式基本可处理
    • 人名、地名和组织机构名是关注重点
  • 任务
    • 实体检测:检测出文本中哪些词串属于实体,即发现实体的左边界和右边界
    • 实体分类:判别检测出的实体具体属于哪个类别

典型方法

  • 基于规则的方法

    • 人名:可借助姓氏和名字用字词典,结合称谓等线索词识别大部分的人名
    • 地名和组织结构名:右边界明显,但左边界模糊,往往收集一个机构名库和地名库
    • 不足
      • 一个实体属于多个类别
      • 既是普通词也是实体
      • 实体缩写变化多、嵌套情形复杂
      • 新的命名实体层出不穷
  • 基于有监督的机器学习方法

    在这里插入图片描述

    • 训练数据的格式化:BIOS格式化,格式为实体类别+位置类别(LOC-I)
    • 测试:每一个字符打上标签,同时包含实体类别和位置类别
    • 基于隐马尔科夫模型的命名实体识别
      • 问题形式化
        • 句子观测 X = x 0 , … , X T X = x_0, \dots, X_T X=x0,,XT
        • 搜索标签序列 Y = y 0 … , y T Y = y_0 \dots, y_T Y=y0,yT
        • 目标为最大后验概率 P ( Y ∣ X ) = P ( Y ) P ( X ∣ Y ) = ∏ t = 0 T P ( y t ∣ y t − 1 ) p ( x t ∣ y t ) P(Y|X) = P(Y) P(X|Y) = \prod_{t = 0}^T P(y_t| y_{t - 1}) p(x_t | y_t) P(YX)=P(Y)P(XY)=t=0TP(ytyt1)p(xtyt)
        • p ( y t ∣ y t − 1 ) = count ⁡ ( y t − 1 , y t ) count ⁡ ( y t − 1 ) p(y_t | y_{t - 1}) = \frac {\operatorname{count}(y_{t - 1}, y_t)}{\operatorname{count}(y_{t - 1})} p(ytyt1)=count(yt1)count(yt1,yt)
        • p ( x t ∣ y t ) = count ⁡ ( x t , y t ) count ⁡ ( y t ) p(x_t|y_t) = \frac{\operatorname{count}(x_t, y_t)}{\operatorname{count}(y_t)} p(xtyt)=count(yt)count(xt,yt)
      • 测试
        • 给定待标注句子 X X X,利用Viterbi算法搜索标签序列 Y Y Y
        • δ t ( y ) = max ⁡ y ′ [ δ t − 1 ( y ′ ) p ( y ∣ y ′ ) ] p ( x t ∣ y ) \delta_t(y) = \max_{y^\prime} [\delta_{t - 1}(y^\prime) p(y|y^\prime)] p(x_t | y) δt(y)=maxy[δt1(y)p(yy)]p(xty)
        • φ t ( y ) = arg ⁡ max ⁡ y ′ [ δ t − 1 ( y ′ ) p ( y ∣ y ′ ) ] p ( x t ∣ y ) \varphi_t(y) = \arg\max_{y^\prime} [\delta_{t - 1}(y^\prime) p(y|y^\prime)] p(x_t | y) φt(y)=argmaxy[δt1(y)p(yy)]p(xty)
    • 基于条件随机场的命名实体识别
      • P ( Y ∣ X ) = 1 Z exp ⁡ { ∑ t = 1 T ∑ k λ k f k ( y t − 1 , y t , X t ) } P(Y|X) = \frac 1Z \exp\left\{ \sum_{t = 1}^T \sum_k \lambda_k f_k(y_{t - 1}, y_t, X t) \right\} P(YX)=Z1exp{t=1Tkλkfk(yt1,yt,Xt)}
      • 根据训练数据构造特征函数,同时训练权重
      • 词汇化特征、标签特征、标签词汇组合特征、词典特征
    • 基于深度神经网络的命名实体识别
      • 分布式向量表示 + LSTM + CRF

自动评价

  • 选择一个无关测试文本 D T D_T DT,人工标注视为GT D R D_R DR,得到的系统输出为 D S D_S DS
  • count ⁡ ( c o r r e c t ) \operatorname{count}(correct) count(correct) D R D_R DR D S D_S DS中完全一致的实体数目
  • count ⁡ ( s p u r i o u s ) \operatorname{count}(spurious) count(spurious) D S D_S DS中识别出但 D R D_R DR中没有的实体数目
  • count ⁡ ( m i s s i n g ) \operatorname{count}(missing) count(missing) D R D_R DR中存在出但 D S D_S DS中没有的实体数目
  • p r e c i s i o n = count ⁡ ( c o r r e c t ) count ⁡ ( c o r r e c t ) + count ⁡ ( s p u r i o u s ) precision = \frac {\operatorname{count}(correct)}{\operatorname{count}(correct) + \operatorname{count}(spurious)} precision=count(correct)+count(spurious)count(correct)
  • r e c a l l = count ⁡ ( c o r r e c t ) count ⁡ ( c o r r e c t ) + count ⁡ ( m i s s i n g ) recall = \frac {\operatorname{count}(correct)}{\operatorname{count}(correct) + \operatorname{count}(missing)} recall=count(correct)+count(missing)count(correct)
  • F 1 = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l F1 = \frac {2 \times precision \times recall}{precision + recall} F1=precision+recall2×precision×recall

实体消歧

定义

  • 一篇文档中同一实体可能有多种不同的指称(Mention)——共指消解
    • 共指消解:为文本中的指称确定其具体实体的过程
  • 不同文档中相同名称的实体也可能表示不同的含义——实体链接
    • 实体链接:确定实体指称所对应的真实世界实体的过程
  • 共指消解
    • 指称类型:普通名词短语、专有名词和代词
    • 目标:将文档中所有指称进行聚类,将指向同一实体的所有指称归为一类
  • 实体链接
    • 无论对于关系抽取还是事件抽取,都需要对多个文档中相同指称进行消岐
    • 确定实体指称所对应的真实世界实体

典型方法

共指消解
  • 问题形式化

    • 假设文本中所有指称都已经正确识别,并构成候选指称集合 M = { m 1 , … , m N } M = \{m_1, \dots, m_N\} M={m1,,mN}
    • 共指消解问题可视为集合 M M M上的划分问题,每个等价类中的所有元素指向同一个实体
  • 基于规则的共指消解——多遍过滤法

    • 用强规则对候选指称集合 M M M进行划分和聚类,得到新集合 M ′ = { m 1 k 1 , … , m 2 k N } M^\prime = \{m_1^{k_1}, \dots, m_2^{k_N}\} M={m1k1,,m2kN},上标 k i k_i ki相同的指称具有共指关系,合并为一个聚类(共指链),算作一个元素, ∣ M ′ ∣ < ∣ M ∣ |M^\prime| \lt |M| M<M
    • M ′ M^\prime M的基础上,逐渐利用准确率稍低的规则对其进行划分,不断放松约束归并具有共指关系的指称集合
    • 集合
      声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/751376
推荐阅读
相关标签