赞
踩
目标:训练一个Transformers将文本和图像标记作为单个数据流进行自回归建模
以往的解决办法:可能性目标倾向于优先考虑像素之间的短程依赖关系建模,因此大部分建模能力将用于捕获高频细节,而不是使物体在视觉上可识别的低频结构。
本文的解决办法:
最大化ELB关于φ和θ,这对应于单独在图像上训练dVAE。
将初始先验pψ设为K = 8192个codebook向量上的均匀分类分布,而qφ设为编码器输出的32 × 32网格中相同空间位置上的8192个对数参数化的分类分布
ELB现在变得难以优化:因为qψ是一个离散分布,我们不能使用重新参数化梯度来最大化它
使用gumbel-softmax松弛,将qφ上的期望替换为qτφ上的期望,其中弛豫随着温度τ→0而变得紧密。pθ的可能性是用对数-拉普拉斯分布来评估的
对于稳定训练重要的原因:
将τ退火到1/16足以缩小放松验证ELB与qτφ intsead而不是真实验证ELB之间的差距
编码器的末尾和解码器的开头使用1 × 1的卷积。我们发现,减小围绕松弛的卷积的接受野大小会导致它更好地推广到真正的EL
编码器和解码器的输出激活的乘法由一个小常数re-block,以确保初始化时稳定的训练
将KL权重增加到β = 6.6可以促进更好的codebook使用
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。