从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

详细解读开源版Sora视频生成模型Latte

作者：从前慢现在也慢 | 2024-08-14 11:19:52

赞

踩

详细解读开源版sora视频生成模型

Diffusion Models专栏文章汇总：入门与实战

前言：OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目，上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte，堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte，并从中窥探Sora的神秘面纱。

目录

是否预训练模型开始训练？

patch embedding方法：uniform frame patch embedding和compression frame patch embedding

Timestep-class 信息注入方式

Temporal positional embedding

论文和代码

贡献概述

论文提出了一种基于Transformer的视频扩散模型结构Latte。Latte首先从输入视频中提取时空标记，然后采用一系列Transformer块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量标记进行建模，从分解输入视频的空间和时间维度的角度引入了四个有效的变体。作者详细比较了四种有效变体之间的利弊。

方法详解

backbone

latte采用视频transformer作为骨干。Latte 使用预

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/979525

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号