可从单张图像创建多视图 3D 视频，Stability AI 发布 Stable Video 3D 模型

3 月 21 日消息，Stability AI 近日发布了 Stable Video 3D 模型，该模型可从单张图像创建多视图 3D 视频。

▲ 图源 Stability AI，下同

Stable Video 3D 包含两个变体，其中 SV3D_u 能基于单个图像输入生成轨道视频，无需相机调节；而 SV3D_p 扩展了 SVD3_u 的功能，其可容纳轨道视图，允许沿着指定的摄像机路径创建 3D 视频。

相较之前的 Stable Zero123 模型或开源替代品 Zero123-XL，Stable Video 3D 在质量上有明显提高，并具有更好的多视图功能和更熟练的泛化能力，能更忠实地展现输入图像的三维全貌。

Stability AI 表示，新模型的水平提升有赖于其基石 Stable Video Diffusion 模型，同时 Stable Video 3D 添加了摄像机路径调节，可生成围绕物体的任意轨道。

Stable Video 3D 利用其多视图一致性来优化 3D NeRF 和网格表示，以提高直接从新视图生成的 3D 网格的质量。

为此 Stability AI 设计了一种新的掩码分数蒸馏采样损失技术，可提高 3D 预测质量。同时其解纠缠照明优化也减少了照明问题，提升了阴影质量。

Stability AI 表示 Stable Video 3D 已可通过其 Stability AI 会员订阅（注：对于一般个人每月 20 美元）商业使用；而对于非商业用途，则可在 Hugging Face 平台上下载模型权重。

Published by