赞
踩
多头注意力机制
通过上一期的分享,我们了解了transformer模型中的多头注意力机制的概念,且通过7个attention注意力机制的变形,彻底了解了tranformer模型的多头注意力机制,哪里重点介绍了multi-head attention多头注意力机制中的Q K V 三矩阵。
——1——
Transformer模型注意力机制计算
其实QKV矩阵的来历比较简单,如下视频动画讲解了QKV三矩阵的来历
这里我们的输入矩阵I分别乘以权重矩阵Wq,Wk,Wv三个矩阵,就得到了输入transformer模型的QKV三矩阵,QKV三矩阵用在transformer模型计算注意力,根据attention is all you need论文中计算注意力机制的公式,我们通过以上得到的QKV三矩阵来计算注意力机制。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。