赞
踩
探索 OpenAI 的 Sora:一种突破性的文本到视频 AI,将在 2024 年彻底改变多模态人工智能。探索其功能、创新和潜在影响。
OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止,这种文本到视频的生成人工智能模型看起来令人难以置信,为许多行业带来了巨大的潜力。
Sora 是 OpenAI 的文本到视频生成人工智能模型。这意味着编写一个文本提示,它会创建一个与提示描述相匹配的视频。以下是 OpenAI 网站上的示例:
提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
OpenAI 与其首席执行官 Sam Altman 一直忙于分享 Sora 的实际应用示例。我们已经看到了一系列不同的风格和示例,包括:
提示词:一个渲染华丽的珊瑚礁纸艺世界,充满了色彩缤纷的鱼类和海洋生物。
提示词:动画场景的特写是一个毛茸茸的小怪物跪在融化的红色蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。
提示词:美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。
提示词:穿越未来城市的街头之旅,与自然和谐相处,同时又充满赛博朋克/高科技。城市应该是干净的,有先进的未来有轨电车、美丽的喷泉、随处可见的巨型全息图、到处都是机器人。让视频是来自未来的人类导游向一群外星外星人展示人类有能力建造的最酷、最辉煌的城市。
提示词:两只金毛猎犬在山顶上播客。
提示词:在海洋上举行自行车比赛,运动员在无人机摄像机视图下骑着自行车,不同的动物。
与 DALL·E 3、StableDiffusion 和 Midjourney 等文本到图像生成 AI 模型一样,Sora 是一种扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始,并使用机器学习逐渐将图像转换为类似于提示中的描述的内容。 Sora 视频最长可达 60 秒。
以下是一些关键技术点:
Sora 的一个创新领域是它同时考虑多个视频帧,这解决了物体移入和移出视野时保持物体一致的问题。在下面的视频中,请注意袋鼠的手多次移出镜头,当它返回时,手看起来与之前相同。
提示词:卡通袋鼠跳迪斯科舞。
这一点 Sora 和 GPT 类似,将扩散模型与Transformer 架构结合起来。
在结合这两种模型类型时,扩散模型非常擅长生成低级纹理,但在全局合成方面较差,而Transformer 则存在相反的问题。也就是说,需要一个类似 GPT 的转换器模型来确定视频帧的高级布局,并需要一个扩散模型来创建细节。
在一篇有关 Sora 实现的技术文章中,OpenAI 提供了这种组合如何工作的高级描述。在扩散模型中,图像被分解为更小的矩形“块”。对于视频来说,这些补丁是三维的,因为它们会随着时间的推移而持续存在。补丁可以被认为相当于大型语言模型中的“标记”:它们不是句子的组成部分,而是一组图像的组成部分。模型的转换器部分组织补丁,模型的扩散部分生成每个补丁的内容。
这种混合架构的另一个缺点是,为了使视频生成在计算上可行,创建补丁的过程使用降维处理,这样就不需要对每个帧的每个像素进行计算。
为了忠实地捕捉用户提示词的本质,Sora 使用了DALL·E 3 中的重述技术。这意味着在创建任何视频之前,GPT 用于重写用户提示词以包含更多细节。本质上,它是自动提示工程的一种形式。
OpenAI 注意到当前版本的 Sora 的一些限制。Sora对物理学没有隐式的理解,因此生成的视频可能有时不符合现实世界的物理规则。
一个例子是模型不理解因果关系。例如,在下面的篮球筐爆炸视频中,篮筐爆炸后,网似乎恢复了。
提示词:篮球穿过篮筐然后爆炸。
类似地,物体的空间位置可能会不自然地移动。在下面的狼崽视频中,动物凭空出现,而且狼的位置有时会重叠。
提示词:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草丛。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。
Sora 的可靠性目前尚不清楚。 OpenAI 的所有示例质量都非常高,但尚不清楚其中涉及多少精挑细选。使用文本转图像工具时,通常会创建十到二十张图像,然后选择最好的一张。目前尚不清楚 OpenAI 团队生成了多少图像才能获得其公告文章中显示的视频。如果需要生成数百或数千个视频才能获得单个可用视频,这将非常低效。要回答这个问题,我们必须等到该工具被广泛使用。
Sora 可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中丢失的帧。
就像文本到图像生成人工智能工具使无需图像编辑专业知识的图像创建变得更加容易一样,Sora 承诺使无需图像编辑经验的视频创建变得更加容易。以下是一些关键用例。
Sora 可用于为 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台创建短片。难以拍摄或无法拍摄的内容尤其适合。例如,拍摄 2056 年拉各斯的场景在技术上很难用于社交帖子,但使用 Sora 就可以轻松创建。
提示词:一段精美的自制视频,展示 2056 年尼日利亚拉各斯的人们。用手机摄像头拍摄。
传统上,制作广告、宣传视频和产品演示的成本很高。像 Sora 这样的文本转视频人工智能工具有望使这一过程变得更加便宜。在下面的示例中,想要宣传加利福尼亚州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头,或者他们可以使用人工智能,从而节省时间和金钱。
提示词:无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。
即使最终产品中未使用人工智能视频,它也有助于快速展示想法。电影制作人可以在拍摄前使用人工智能来制作场景模型,设计师可以在构建产品之前创建产品视频。在下面的示例中,玩具公司可以先生成新海盗船玩具的 AI 模型,然后再大规模创建它们。
提示词:逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。
合成数据通常用于因隐私或可行性问题而无法使用真实数据的情况。对于数字数据,常见用例是财务数据和个人身份信息。必须严格控制对这些数据集的访问,但您可以创建具有类似属性的合成数据以供公众使用。
合成视频数据的一种用途是用于训练计算机视觉系统。比如美国空军使用合成数据来提高无人机计算机视觉系统的性能,以在夜间和恶劣天气下检测建筑物和车辆。 Sora 等工具使这一过程变得更加便宜,并且更容易为更广泛的受众所接受。
该产品是新产品,因此尚未完全描述风险,但它们可能与文本到图像模型的风险类似。
如果没有适当的护栏,Sora 就有能力生成令人厌恶或不适当的内容,包括包含暴力、血腥、露骨色情材料、对人群的贬损描述和其他仇恨图像以及宣扬或美化非法活动的视频。
根据用户(考虑使用 Sora 的儿童与成人)和视频生成的背景(有关烟花危险的视频警告很容易以教育方式变得血腥),构成不当内容的内容有很大差异。
根据 OpenAI 分享的示例视频,Sora 的优势之一是能够创建现实生活中不可能存在的奇幻场景。这种优势还使得创建“深度伪造”视频成为可能,其中真实的人或情况被改变为不真实的东西。
当此内容被呈现为真相时,无论是意外(错误信息)还是故意(虚假信息),都可能会导致问题。
正如 DigiDiplomacy 首席人工智能治理和道德官 Eske Montoya Martinez van Egerschot所写,“人工智能正在重塑竞选策略、选民参与度以及选举诚信的基础。”
政客或政客对手的令人信服但虚假的人工智能视频有能力“战略性地传播虚假叙述,并通过骚扰瞄准合法来源,旨在破坏对公共机构的信心并培养对不同国家和人群的敌意”。
今年发生了从台湾到印度再到美国的许多重要选举,这会产生广泛的影响。
生成式人工智能模型的输出高度依赖于其训练的数据。这意味着训练数据中的文化偏见或刻板印象可能会导致生成的视频出现相同的问题。正如 Joy Buolamwini 在DataFramed 的“为算法正义而战”一集中所讨论的那样,图像中的偏见可能会对招聘和治安产生严重后果。
Sora 目前仅对 “红队” 研究人员开放。也就是说,专家的任务是尝试识别模型的问题。例如,他们将尝试生成具有上一节中确定的一些风险的内容,以便 OpenAI 可以在向公众发布 Sora 之前缓解这些问题。
OpenAI 尚未指定 Sora 的公开发布日期,不过可能是 2024 年的某个时间。
Sora 有几种备受瞩目的替代方案,允许用户从文本创建视频内容。这些包括:
还有几个较小的竞争对手:
型号/平台 | 开发商/公司 | 平台可用性 | 目标用户 | 主要特征 |
---|---|---|---|---|
Runway Gen-2 | Runway | Web, Mobile | 广泛(一般用途) | 高颜值文字转视频AI,人性化 |
Lumiere | PyTorch 扩展 | 开发人员、研究人员 | 为 PyTorch 用户提供高级文本到视频生成功能 | |
Make-a-Video | Meta | PyTorch 扩展 | 创作者、研究人员 | 从文本生成高质量视频 |
Pictory | Pictory | Web | 内容营销人员、教育工作 | 简化文本到视频的转换,以实现引人入胜的叙述 |
Kapwing | Kapwing | Web | 社交媒体营销人员、休闲创作者 | 从文本创建视频的平台 |
Synthesia | Synthesia | Web | 企业、教育工作者 | 由人工智能驱动的头像主导的文本视频演示 |
HeyGen | HeyGen | Web | 营销人员、教育工作者 | 用于销售和营销的视频生成 |
Steve AI | Steve AI | Web | 企业、个人 | 为各种应用程序创建视频和动画 |
Elai | Elai | Web | 电子学习、企业培训 | 将教学内容转化为视频 |
毫无疑问,Sora 具有开创性,这种生成模型的潜力是巨大的。 Sora对人工智能行业和世界有何影响?当然,我们只能做出有根据的猜测。然而,以下是Sora可能改变事物的一些方式,无论是好是坏。
让我们首先看一下 Sora 在(可能分阶段)向公众推出后可能会产生的直接、短期影响。
在上面的部分中,我们已经探讨了 Sora 的一些潜在用例。如果 Sora 发布供公众使用,其中许多可能会得到快速采用。这可能包括:
当然,正如我们之前强调的那样,此类技术存在一系列潜在的负面影响,我们必须克服这些负面影响。以下是我们必须警惕的一些风险:
我们已经提到了 Sora 的几个替代方案,但我们预计这个列表在 2024 年及以后将会显着增长。正如我们在 ChatGPT 中看到的那样,竞争位置的替代方案列表不断增加,并且许多项目都在市场上的开源LLMs上进行迭代。
Sora 很可能是继续推动生成人工智能领域创新和竞争的工具。无论是通过针对特定用途的微调模型还是直接竞争的专有技术,该行业的许多大公司可能都希望在文本到视频的业务中分一杯羹。
随着 OpenAI 的 Sora 公开发布后尘埃落定,我们将开始看到更长期的未来。随着各行各业的专业人士掌握该工具,Sora 不可避免地会出现一些改变游戏规则的用途。让我们推测一下其中一些可能是什么:
Sora(或类似工具)有可能成为多个行业的支柱:
我们已经接触过虚拟现实 (VR) 和增强现实 (AR),但 Sora 与这些媒体结合后有可能彻底改变我们与数字内容的交互方式。如果 Sora 的未来迭代能够生成可以在几秒钟内居住的高质量虚拟世界,并利用生成文本和音频来填充看似真实的虚拟角色,这就会引发一个严重的问题:在数字世界中导航意味着什么?未来。
总之,OpenAI 的 Sora 模型有望在生成视频的质量方面实现飞跃。即将发布的版本及其在各个领域的潜在应用备受期待。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。