【学习】从零入门Transformer_transformer零基础

作者：你好赵伟 | 2024-07-26 04:13:15

踩

transformer零基础

本文记录一下从0入门Transformer的过程

https://zhuanlan.zhihu.com/p/31547842

Transformer之前

说到Transformer，就离不开NLP，就离不开Seq2Seq，毕竟transformer一开始也是和Seq2Seq结合用的。

这里先放两个RNN在NLP中的应用，了解一下RNN

RNN收到一个字母，输出更新的隐藏状态和预测的国家分类，到了最后一个字母之后，把国家分类拿出来得到最终的预测。这就是Sequence到一个类的任务。

RNN收到一个字母，输出更新的隐藏状态和预测下一个字母。直到输出终止符，将之前的所有字母合起来，就是最终生成的名字。这是一个状态到Sequence的任务

其实有了上面两个任务的基础，就理解Seq2Seq是怎么做的了。对输入Seq进行编码，把其中每个单词或者每个字母按顺序输入到RNN中，最终可以得到一个隐藏状态，这个RNN就叫Encoder。然后用这个隐藏状态输入到Decoder中，按照生成名字的方法依次输出预测的单词或者字母，生成输出的Seq。

在这里插入图片描述
那么这就有个问题：从第一个词到最后一个词，走了这么久，隐藏状态到底能不能记得住这么多东西呢？能不能有效的找到输出Seq中第j个词到底和输入Seq中的哪个词关系比较大呢？

这就引出了Attention，目的就是学习输出Seq和输入Seq之间的关系，输出Seq不同位置的词是与输入Seq的某些词有关的，只需要关注这些词即可。

仍然是从代码入手，推荐Pytorch的教程。

先看Encoder：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/883523