当前位置:   article > 正文

文生视频开源产品的一些调研(一)

文生视频开源

笔者尝试AI视频生成的几个特点:

  • 玄学prompt,每个视频的prompt可能也需要微调很多次,需要找到使用模型的最佳prompt词组合,不恰当的比喻,骑自行车,座位高度等都是人与车彼此熟悉
  • 玄学生成,因为需要连贯,你可能需要生成无数个视频,99%可能都是一坨屎,各种垮脸的关键帧,需要失败很多次,才有那么个能看的,所以按照这个原理,买在线平台比较不划算,因为每次生成都是计费的

如果要生成比较合理的长视频:

  • 合理的拆解分镜
  • 每个分镜要有适配模型的prompt,包括背景描述
  • 玄学生成视频,力大出奇迹

这里笔者有点推荐使用【星火绘镜】来试着打造分镜,首图也可以保存,
后面生成视频的功能就别用了,瘆人。

几个可以同时支持图+文共同输入的模型:

  • 即梦
  • lumalabs.AI
  • Runway Gen-3 Alpha

1 产品调研

AIGC产品列表可见:[AI视频生成]

1.1 快手:可灵

https://kling.kuaishou.com/

没有申请到测试账户,生成短视频一般5s左右,示例视频的动作还蛮丰富

在这里插入图片描述
号称可以支持长视频:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 lumalabs.AI

https://lumalabs.ai/dream-machine/creations

120 秒生成 120 帧,视频模型 Dream Machine

在这里插入图片描述

Dream Machine 可在 120 秒生成 120 帧,目前单个视频最长为 5 秒;生成的视频具有逼真的流畅运动、电影摄影和戏剧效果;还可以匹配摄像机运动,创造出“惊艳”的画面。
Luma AI 也提到了目前模型存在的问题,比如切换视角时汽车会变形,狗的运动没有用到爪子,显示文字会有问题(将 Luma 显示成 Lumma),北极熊在转身时出现了两个头(Janus 是罗马人的门神,具有前后两个面孔),官方表示他们仍将继续优化模型

1.3 即梦 - 剪映旗下

https://jimeng.jianying.com/ai-tool/home
在这里插入图片描述

有一些比较视觉的功能,比如运镜控制,还有首帧,尾帧的图片的上传可以固定首尾情况
但是整体5S中,可以连贯的剧情可能比较简单,
笔者体验下来可能仅仅实现的是图像动起来

生成的内容也会有变形,所以需要生成很多次才可以。

在这里插入图片描述

1.4 科大讯飞-星火绘镜

https://typemovie.art/#/dashboard
在这里插入图片描述

笔者猜测底层可能是【Stable Video Diffusion】,使用的某个Lora都是高清现代人物,比较亮眼的长视频的分镜处理
第一步:给入主题大纲生成分幕剧情
在这里插入图片描述
在这里插入图片描述

第二步:根据每一个分镜描述,生成分镜首图,然后后续会根据这些首页图再次生成
咋说呢,首图看着确实很亮眼,但是后续生成的视频,简直不能看,胆小慎入…
反正不能人样…
在这里插入图片描述

1.5 魔搭MotionAgent

https://modelscope.cn/studios/iic/MotionAgent/summary

MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合,进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。

是一个比较完整的项目了,包括剧本,音乐生成,就是缺了一个分镜就更好了
比较适合自己搭服务器玩

在这里插入图片描述

1.6 CogVideo

https://segmentfault.com/a/1190000044809082
https://models.aminer.cn/cogvideo/
只有4s,可以免费试用的相对固定

在这里插入图片描述

1.7 runwayml

https://runwayml.com/?ref=magicspace.agency

在这里插入图片描述

1.8 Stable Video

Stable Video是由著名的Stability AI推出的在线AI视频生成工具,目前拥有最强大的AI绘画模型之一,Stable Diffusion。它提供文本生成视频和图像生成视频两种模式,每天还可获得积分,免费生成多达十几个视频。
网址 https://www.stablevideo.com/

测试下来,本质就是让图动起来,差了点意思,剧情感不强

在这里插入图片描述

1.9 Lumen5

Lumen5能够将长篇文章、博客等文本内容转化为视频,并提供丰富的视频模板供选择。用户可以对制作过程进行微调,添加素材等,享有高度自由度。
网址https://lumen5.com/

在这里插入图片描述

1.10 腾讯智影 - 数字人创作

腾讯智影是一款集成了AI数字人物、AI文字转语音(TTS)、文章转视频等功能的智能创作工具。用户可以选择多种AI数字人物,并进行细节控制,如动作、服装等。
网址 https://zenvideo.qq.com/

1.11 即创 - 电商商品生成

即创是字节跳动专为抖音生态而推出的AI创作平台,能够通过AI快速生成文案、带货视频、直播以及商品宣传图等内容。同时也提供AI数字人功能。
用户可以通过抖音精选联盟的商品ID,在即创中一键生成爆款内容,非常适合从事抖音带货的用户。
官网 https://aic.oceanengine.com

1.12 一帧秒创

https://aigc.yizhentv.com/product/aiVideo

拆分剧本,但是视频都是哪个影视剧的小片段裁剪的,不是合成的

在这里插入图片描述

1.13 domoAI - 视频转动漫

官方 Discord 链接: https://discord.gg/domoai

DomoAI 的服务目前托管 Discord 上的,可以将真人视频转化为动漫、3D、像素、彩色插画、中国水墨画等多种风格。下面是官方展示的真人视频转动漫视频的效果,非常稳定丝滑。
在这里插入图片描述

1.14 Runway Gen-3 Alpha

2024/6/18更新
https://app.runwayml.com/video-tools/

整体有120s的免费时间
每次一般生成4s一段的视频

关联报道:Runway发布Gen-3 Alpha:用100万美元拍500部电影的时代来了!|甲子光年

Gen-3 Alpha的五大功能特色
每一个功能都能让你的创意想法变为现实,发现Gen-3 Alpha能提供的优越体验。

  • 文本到视频:将文本描述转换为视频。
  • 图像到视频:将静态图像转换为动态视频。
  • 文本到图像:将文本描述转换为静态图像。
  • 高级相机控制:精细控制视频拍摄角度和运动。
  • 导演模式:对视频的叙事和场景进行详细指导。

本次发布的Gen-3 Alpha模型使用视频和图像联合训练,其特色包括:

  • 90秒内快速生成10秒视频
  • 并行生成多个视频
  • 模型驱动新的文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)
  • 动作笔刷、高级摄像机控制、导演模式
  • 即将推出用于精细控制结构、风格、动作的工具

在这里插入图片描述
在这里插入图片描述
整个制作页面也蛮好:
在这里插入图片描述
当然笔者在测试的时候,一直想让人物有一个躺下的动作:

Jane sat on the bed, swiping her phone, then lay back on the bed, holding the phone as she lay down, keeping her eyes on the screen without shifting
  • 1

但是一直“躺不下”,可能这个动作时间不够。。
在这里插入图片描述
不过runway是可以直接使用extend功能,
当然,延长4s,依旧不能躺下。。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/839691
推荐阅读
相关标签
  

闽ICP备14008679号