关闭
您当前的位置:首页 > 伙乘资讯 > 36AI视频创作

WorldDreamer:一种通用世界模型,用于视频生成,能够在图像到视频合成、文本到视频生成、视频修补、视频风格化甚至动作到视频生成等方面展现出卓越的性能

来源:伙乘AI 时间:2024-06-23 作者:伙乘AI 浏览量:

image.png


WorldDreamer:WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens (world-dreamer.github.io)


WorldDreamer是一种通用世界模型,用于视频生成,通过预测掩码标记的令牌,能够在图像到视频合成、文本到视频生成、视频修补、视频风格化甚至动作到视频生成等方面展现出卓越的性能。


视界一粟YiSu有哪些功能?

1. 图像到视频合成

2. 文本到视频生成

3. 视频修补

4. 视频风格化

5. 动作到视频生成


产品特点:

WorldDreamer通过将图像和视频转换为视觉令牌,并进行令牌掩码操作,将文本和动作输入分别编码为嵌入,作为多模态提示,然后通过STPT预测掩码的视觉令牌,最终通过视觉解码器实现视频生成和编辑。


应用场景:

1. 自然场景视频生成

2. 驾驶环境视频生成

3. 视频编辑


视界一粟YiSu如何使用?

用户可以将图像、文本或动作输入转换为视觉令牌,并通过STPT预测掩码的视觉令牌,最终通过视觉解码器实现视频生成和编辑。


微信扫一扫分享资讯

相关推荐
暂无相关推荐
热门话题
推荐文章