当前位置:   article > 正文

11. Coupled multilayer attentions for co-extraction of aspect and opinion terms阅读笔记_coupled multi-layer attentions for co-extraction o

coupled multi-layer attentions for co-extraction of aspect and opinion terms

Title: Coupled multilayer attentions for co-extraction of aspect and opinion terms

简称:CMLA

作者:Wenya Wang etal.
单位:南洋科技大学
AAAI 2017
标签:BIO

论文地址:

一、科学问题:

旨在解决属性抽取和情感抽取问题。

二、针对问题的方法设计动机:

已有的属性抽取方式可以分为三大类:
(1)rules-based:基于规则的
(2)feature-engineering-based:基于特征工程的
(3)deeping learning-based:基于深度学习的
已有的基于深度学习的属性抽取方法,目的是基于语言学知识或语义信息,通过大量、人工标注的数据来习得一个分类器,预测每一个字符(token)的标签从而实现属性抽取。其需要借助语言学知识或外部的信息,且评论文本可能存在语法或者句法错误,导致依存关系分析器输出的结果不准确,因此会降低性能。
在本文中,提出一个端到端的解决方案,使用多层注意力网络替代句法或依存关系解析器及外部语言信息,获取信息抽取种一个句子的一个单词之间的关系。在预处理阶段,不需要任何语法或依存关系解析器及其他语言学资源。特别地,本文的模型是一个多层的成对注意力网络,每一层网络都由带张量算子的注意力组成。

三、方法架构:

1.对每一个句子,我们构造一对注意力,其中一个注意力用于属性抽取(aspect attention),一个注意力用于情感词抽取(opinion aspect)。每一个注意力旨在学习属性/情感的原型向量(prototype vector),每一个字符的高水平特征表示以及句子中每一个字符的注意力得分。特征向量和注意力分数使用一个张量算子来度量每个输入字符和原型向量之间的相似度,它在度量其与原型的相关性时获得给定字符的不同上下文。
2.为了获得AT和OT之间的直接关系,这对注意力互相耦合,彼此互相影响
3.为了获取AT和OT之间的间接关系,本文构建了一个多层注意力网络。

四、核心模型的解释文字:
1. Attention with Tensor Operator

CMLA的基本单元是一对注意力:属性注意力和情感注意力。在大多数先前的研究中,注意力被用于生成句子级或文档级表示(通过计算输入文本的权重和)。每个输入单元的权重是从指导模型的原型向量获得的注意力分数。不同于先前的研究,本文使用注意力去辨别每一个字符(token)是属性词或情感词的概率。下图2(a)显示了一个基本的属性抽取注意力模型的框架。
在这里插入图片描述设定H= {h1,h2……,hn}是一个长度为n的输入文本(句子级),hi是第i个字符的特征表示。
在属性抽取注意力模型中,首先为aspect生成一个一个原型向量Ua,其可以看作是属性词的一般特征表示。这个属性原型将会指导模型参加大多数相关的字符。给定Ua和H,模型可以为每一个字符计算得到其注意力向量ria和注意力分数eia。为了获得注意力向量ria,本文首先通过张量算符fa计算hi和原型向量Ua之间的相关性,得到组合向量βia。公式如下:
在这里插入图片描述
其中,在这里插入图片描述是一个3维向量,
βia表示了更抽象和高水平的相关特征。然后,将βia输入GRU(门控循环单元)网络,得到注意力向量ria,具体地,

在这里插入图片描述
通过对βia使用GRU,使得注意力向量上下文相关,其可以帮助获取过去的历史信息。

每一个字符的注意力分数eia,可以通过如下公式计算:
在这里插入图片描述
通过在这里插入图片描述
计算每一个字符的预测结果。

情感注意力的计算方法与属性注意力的计算方法类似,在此便不再赘述。

2. Couple Multi-layer Attentions

正如前一节所讨论的,共同提取属性词和情感词的一个关键问题是如何充分利用属性词和情感词之间的关系,以便信息能够相互传播,以帮助最终预测。然而,互相独立的属性注意力和情感注意力学习,两者并不能习得彼此之间的关系,并不能互相利用两者之间的关系。因此,本文提出结合这两个注意力的学习,这样每个注意力的信息就可以双重传播到另一个注意力。如下图2(b)所示:
在这里插入图片描述实线和虚线分别表示属性词抽取和情感词抽取。这两个注意力共享每一个输入字符Wi的特征向量hi,不同于单一的注意力,输入每个注意模块的原型变成一对向量{ua,up},公式(1)中的张量算符变成了一对张量{Gm,Dm},公式(1)变成公式(4):
在这里插入图片描述
其中,(4)中的[:]表示向量的拼接,是两个向量的v索引大小。新的张量Dm被用来模拟hi和原型项目的相关性,它捕获了属性词和情感词之间的双重传播。例如,在(b)图中,如果h8tastes已经通过属性注意力和ua获取。因为freshtaste有很强的相关性,它(属性注意力)将有助于情感词注意力获取fresh,最终,会将fresh作为可能的情感词,与公式(2)类似,输出rim和eim可以通过下式(5)获得:
在这里插入图片描述

3. Multi-Layer Coupled Attentions

一对注意力仅能获取习得属性词和情感词之间的直接关系,不能获取两者之间的间接联系。为了解决这个问题,本文提出多层成对注意力网络,可参阅(b)图。在图(b)中,每一层由一对注意力组成(情感注意力+属性注意力)
在这里插入图片描述t+1层模型,如上图(c)所示,t+1层的原型向量Ut+1m由前一层(t层:utm)的原型向量更新,从而得到更灵活的属性词和情感词表示,公式如下:
在这里插入图片描述
其中,otm的计算公式如下:
在这里插入图片描述
本文使用图(b)解释多层注意力机制怎样获取两者之间的间接联系。在这里插入图片描述
设定在第t层,原型向量Uta中,h1对应Fish,h2对应burger,utp使得h5对应best.在属性注意力中,{Uta,utp}与每一个hi交互,以获得分数etia.可以得出,因h6与h2和h5都高相关,h6对应的dish被加入注意力网络中,作为结果,ut+1a会被更新。反过来,在下一层中,h6tastes相关,因为h6和h8的强相关性。
在这种情况下,属性词tastes是通过两层注意力间接耦合提取的,这表明,多层注意力网络能够逐渐关注不明显且具有间接关系的属性词或情感词。

五、实验性能(重点有趣且对应于动机的实验,以及与SOTA技术比较的性能表格)
1. Datasets &Experimental Setup

在本文,选择Laptop-14(S2),Restaurant-14(S1)以及Restaurant-15(S3)三个数据集。数据集情况如下:
在这里插入图片描述

2. Experimental Results

将本文提出的CMLA模型与以下的模型进行比较:
在这里插入图片描述在这里插入图片描述
实验结果如下:
在这里插入图片描述表2显示了本文提出的CMLA模型,以及几个对比模型在属性抽取和情感抽取两个任务上的性能,从表2,可以得出本文提出的模型CMLA具有一定的优越性。
此外,本文提出的是多层成对注意力网络,为了验证,具体的层数,本文亦作了对比实验,结果如下:
在这里插入图片描述从表4可以看出,层数为2时,属性抽取和情感抽取任务两者的性能达到最优。得到了和表2一样的性能

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/769881
推荐阅读
相关标签
  

闽ICP备14008679号