Gen-1：从现有视频生成新视频的AI模型

共同开发文本到图像AI模型Stable Diffusion的研究实验室Runway ML推出了一种新的视频到视频模型：Gen-1，它可以从现有视频生成新视频。

Gen-1是一种内容引导的视频传播模型。它根据基于所需输出的视觉或文本描述来编辑视频。

例如，用户可以上传白色皮毛狗的视频，输入文本提示“白色皮毛上有黑色斑点的狗”，模型将生成具有所需输出的现有视频的新版本。

Runway声称其新模式类似于“拍摄新事物，但根本不拍摄任何东西。没有灯。没有相机。所有的行动。”

Runway宣称其最新的生成模型能够生成视频，同时保留原始视频的质量和灵活性。

根据Runway的说法，Gen-1“能够真实、一致地将图像或文本提示的构图和风格应用到目标视频中。”

视频到视频的方法是通过在图像和视频上联合训练模型来实现的。此类训练数据使Gen-1能够在推理时完全进行编辑，而无需额外的每个视频训练或预处理，因为它使用示例图像作为指导。

根据Runway的说法，Gen-1可以部署的用例包括定制、渲染和遮罩

目前，只有少数受邀用户获得了Gen-1的访问权限，尽管Runway将在几周内公开发布该模型。想要访问Gen-1的用户必须加入候补名单。

“Runway Research致力于构建多模态AI系统，以实现新形式的创造力。Gen-1代表了我们在这一使命中向前迈出的又一关键步骤，”Stable Diffusion制造商争辩道。

可通过arXiv获得全面概述该模型的论文。

用于视频的生成AI并不是什么新鲜事。去年9月，当全世界开始对文本到图像的AI模型着迷时，Meta的研究人员推出了Make-A-Video，这是一种能够根据文本提示生成视频的AI系统。Make-A-Video还可以从图像创建视频，或使用现有视频创建类似的新视频。