赞
踩
在机器翻译领域,幻觉问题是众所周知的。与过去相关研究相比,针对于机器翻译中的幻觉问题去除的研究开展的不是很顺利。事实上,以往幻觉去除的方法主要针对于模型在人为因素下产生的幻觉。当幻觉自然生成时,以往的去除方法显示出了它的短板,但是在这种实验环境下(不人为干预产生幻觉),机器翻译最后输出的对数概率含有这丰富的信息。这意味着模型内部特征可以提供比我们预料之外更丰富的信息。在使用外部模型以及外部方法之前,我们心中需要有一个假设:在不借用外部模型的情况下,我们对于幻觉的检测和去除可以进展多远?我们建议使用一种可以衡量源语句对翻译语句贡献度的方法来检测幻觉,因为机器翻译中的幻觉可以被看做源语句与翻译语句的一种“脱离”。这种只使用模型内部特征信息的方法在幻觉的检测以及去除上的效果几乎可以与最好的外部检测方法比肩。同时还探究了,在使用外部模型检测幻觉的情况下,衡量源语句的与翻译语句的句子相似性比直接评价翻译语句的质量效果更好.
机器翻译的幻觉体现在翻译语句与源语句的不相关性上,这种不相关性可以被“脱离”这个名词解释。因为这种问题出现的频率很低,所以对于语料级别的指标影响很小,但是对于用户体验的影响是很大的,因为一旦出现这种情况,用户对于系统就会产生严重的不信任。
因为幻觉出现的频率是比较低的,所以以往的研究会通过人为的因素来产生幻觉。比如:
(1)对源语句进行干扰。
(2)在训练数据中心加入噪声。
(3)在域偏移的情况下进行翻译。
幻觉是没法通过一些自动化的指标去衡量的。但是以往的研究总是把幻觉定义为质量很差的语句,并通过一些质量判别标准去衡量幻觉,类似于BLUE以及CHRF,或者遵循一些启发式的规则。
作者调研了之前的相关工作,发现模型内部特征信息很丰富,并且在进行人为的干扰下,以往的方法的效果都表现的不尽人意。
在这种问题的背景之下,本文做了如下工作:
此次实验使用的模型是fairseq库中基于Transformer的模型。使用WMT’18 German-English news数据进行训练,用其中三分之二的数据进行训练,剩下三分之一的数据当做保留集用于后续的分析。
使用上边的模型进行源语句(来源于保留数据集中的数据集)的翻译,并使用人工标注来确定他们的细粒度标签(完全幻觉,强幻觉,错误,正确),人工标注的评判标准是之前的启发式幻觉检测方法,质量评测方法以及不确定性检测方法。
翻译句子后的种类主要包括三种(图1):
幻觉检测方法主要分为三大类,基于参考的检测方法、基于内部特征信息的检测方法、基于外部模型的检测方法。### 3.1基于参考的检测方法
主要给出AUC以及在召回率为90%下的准确率。
图表(图8)解释:在幻觉数据集中,采用不同的检测方法,对每一对训练语料(有多个标签)进行评分,按照升序排序,选取排序结果的前百分之十。然后输出这百分之十的问题种类分布(只考虑主标签),左侧图如图所示。右侧的图是采取跟之前一样的方法,选取百分之二十的数据,然后输出这些问题种类的分布(考虑多标签,每个标签对于不同的种类都有一定的贡献度)。
本文的幻觉检测方法主要采用了“detech-then-rewrite”方法,首先对翻译的句子进行评分,如果评分过低,就意味着可能出现了幻觉,采用不同的生成策略,生成不同的候选翻译语句,使用排序规则对候选翻译语句进行评分,然后用评分最高的候选句子去替代出现问题的语句。
评价指标:
使用质量评测方法:COMMET和BLUE。以及上边实验效果最好的方法LABSE和XNLI。
数据:
从上边的数据集当中,针对每一种错误类型(完全幻觉,强幻觉以及错误)分别采样两百条数据,一共六百条数据。
使用以上指标对六百条数据进行评价,将评分较低的句子进行标记,以便以后对标记数据进行处理。
在固定排序算法为COMET的情况下,采用不同的采样策略来评价指标的好坏。不同的采样策略如下:
图11可以得到如下结论:
在数据集中(上边的保留集)采样200条数据,55%是幻觉,25%是错误,剩下的是正确的。让每一条源语句生成四条候选翻译,去除重复并且打乱,使用三个人工去标注,采用投票机制,进行人工标注。
排序方法可以很好地减轻幻觉问题,效果是不排序的两倍多。只使用内部信息进行幻觉检测也取得了很好的效果(图12)。
使用AITL(根据模型内部的特征信息的评判标准)进行幻觉的检测以及去除可以达到与使用外部模型差多不多的效果。在不能使用外部模型的情况下,应该多关注于模型本身,不仅可以减少工作量也可以取得不错的效果,这也为未来的工作提供了方向。同时在使用外部模型的条件下,比较源语句与翻译语句的相似性更能检测幻觉。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。