当前位置:   article > 正文

动画详解Transformer模型注意力机制的概念与模型搭建_如何从transformer的多头中取出qkv

如何从transformer的多头中取出qkv

多头注意力机制

通过上一期的分享,我们了解了transformer模型中的多头注意力机制的概念,且通过7个attention注意力机制的变形,彻底了解了tranformer模型的多头注意力机制,哪里重点介绍了multi-head attention多头注意力机制中的Q K V 三矩阵。

——1——

Transformer模型注意力机制计算

其实QKV矩阵的来历比较简单,如下视频动画讲解了QKV三矩阵的来历

 这里我们的输入矩阵I分别乘以权重矩阵Wq,Wk,Wv三个矩阵,就得到了输入transformer模型的QKV三矩阵,QKV三矩阵用在transformer模型计算注意力,根据attention is all you need论文中计算注意力机制的公式,我们通过以上得到的QKV三矩阵来计算注意力机制。

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/342510
推荐阅读
相关标签
  

闽ICP备14008679号