当前位置:   article > 正文

详细解读开源版Sora视频生成模型Latte

详细解读开源版sora视频生成模型

Diffusion Models专栏文章汇总:入门与实战

前言OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目,上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte,堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte,并从中窥探Sora的神秘面纱。

目录

贡献概述

方法详解

backbone

是否预训练模型开始训练?

patch embedding方法:uniform frame patch embedding和compression frame patch embedding

Timestep-class 信息注入方式

Temporal positional embedding

论文和代码

个人感悟


贡献概述

论文提出了一种基于Transformer的视频扩散模型结构Latte。Latte首先从输入视频中提取时空标记,然后采用一系列Transformer块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量标记进行建模,从分解输入视频的空间和时间维度的角度引入了四个有效的变体。作者详细比较了四种有效变体之间的利弊。

方法详解

backbone

latte采用视频transformer作为骨干。Latte 使用预

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/979525
推荐阅读
相关标签
  

闽ICP备14008679号