赞
踩
机器翻译任务的预处理是确保模型能够有效学习源语言到目标语言映射的关键步骤。预处理阶段通常包括多个步骤,旨在清理、标准化和转换数据,使之适合模型训练。以下是机器翻译任务预处理中常见的几个处理步骤:
jieba
对中文进行分词,使用spaCy
对英文进行分词。<PAD>
标记填充。<SOS>
(Sequence Start)和<EOS>
(Sequence End)标记,帮助模型识别序列的起始和结束。<UNK>
(Unknown)标记,使模型能够处理未见过的词汇。说到神经机器翻译就不得不提编码器-解码器模型,或编码器-解码器框架(EncoderDecoder Paradigm)。本质上,编码器解码器模型是描述输入输出之间关系的一种方式。
例如,在电视系统上为了便于视频的传播,会使用各种编码器将视频编码成数字信号,在客户端,相应的解码器组件会把收到的数字信号解码为视频。另外一个更贴近生活的例子是电话,它通过对声波和电信号进行相互转换,达到传递声音的目的。
这种“先编码,再解码”的思想被应用到密码学、信息论等多个领域。机器翻译问题也完美的贴合编码器解码器结构的特点。可以将源语言编码为类似信息传输中的数字信号,然后利用解码器对其进行转换,生成目标语言。
在源语言句子的表示形式确定之后,需要设计相应的编码器和解码器结构。在当今主流的神经机器翻译系统中,编码器由词嵌入层和中间网络层组成:
解码器的结构基本上和编码器是一致的,在基于循环神经网络的翻译模型中,解码器只比编码器多了输出层,用于输出每个目标语言位置的单词生成概率,而在基于自注意力机制的翻译模型中,除了输出层,解码器还比编码器多一个编码解码注意力子层,用于帮助模型更好地利用源语言信息。
隐藏层的状态根据输入单元逐个更新,即隐藏层A在t时刻的状态h(t)不仅受输入x(t)的影响,还受t之前的x的影响,m个输入全部进入编码器后,h(m)可以看作包含了源语言序列的全部信息。
h(m)在解码器作为初始隐状态s(0),由于 RNN 的循环过程在每个时间步都要求一个输入单词,为了启动解码过程,一般会使用一个保留的特殊符号 “[Start]” 作为翻译开始的标记送入到 RNN 解码器当中,产生s(1)并解码出目标语言序列的第一个单词z(1),z(1)继续返回输入到解码器中影响解码器的状态并得到新的输出结果z(2)。由于目标语言序列的长度无法被提前预知,因此使用另一个保留符号 “[Stop]” 作为预测结束的标志。当某一个时刻 t 预测出的目标语言单词为 zt =“[Stop]” 时,解码过程动态地停止。
在上述过程当中,主要涉及到两步运算,第一步是 RNN 接收前一时刻隐状态s(t-1)并依据当前时刻输入 z(t-1)(目标语言单词 z(t-1)对应的语义嵌入)对隐状态进行维护并生成s(t)的运算过程,第二步是依据当前时刻隐状态生成目标语言单词的过程:
优势在于加入s(0)模块,使得解码器能够自适应地查找编码器中h(1)到h(m)的全部信息。优化了翻译性能在文本序列增长的情景下减退的问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。