WorldDreamer是一种通用世界模型,用于视频生成,通过预测掩码标记的令牌,能够在图像到视频合成、文本到视频生成、视频修补、视频风格化甚至动作到视频生成等方面展现出卓越的性能。
视界一粟YiSu有哪些功能?
1. 图像到视频合成
2. 文本到视频生成
3. 视频修补
4. 视频风格化
5. 动作到视频生成
产品特点:
WorldDreamer通过将图像和视频转换为视觉令牌,并进行令牌掩码操作,将文本和动作输入分别编码为嵌入,作为多模态提示,然后通过STPT预测掩码的视觉令牌,最终通过视觉解码器实现视频生成和编辑。
应用场景:
1. 自然场景视频生成
2. 驾驶环境视频生成
3. 视频编辑
视界一粟YiSu如何使用?
用户可以将图像、文本或动作输入转换为视觉令牌,并通过STPT预测掩码的视觉令牌,最终通过视觉解码器实现视频生成和编辑。