社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

WBOY

发布： 2024-03-20 14:25:18

转载

1051 人浏览过

Stable Diffusion背后公司Stability AI又上新了。

这次带来的是图生3D方面的新进展：

基于Stable Video Diffusion的Stable Video 3D（SV3D），只用一张图片就能生成高质量3D网格。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

Stable Video Diffusion (SVD)是Stability AI之前发布的一个用于生成高分辨率视频的模型。SV3D的问世标志着视频扩散模型首次被成功运用到3D生成领域。

官方表示，基于此，SV3D大大提高了3D生成的质量和视图一致性。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

模型权重依然开源，不过仅可用于非商业用途，想要商用的话还得买个Stability AI会员~

话不多说，还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型，SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D：

SV3D_u：基于单张图像生成轨道视频。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

SV3D_p：扩展了SV3D_u的功能，可以根据指定的相机路径创建3D模型视频。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

研究人员还改进了3D优化技术：采用由粗到细的训练策略，优化NeRF和DMTet网格来生成3D对象。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

他们还设计了一种名为掩码得分蒸馏采样（SDS）的特殊损失函数，通过优化在训练数据中不直接可见的区域，来提高生成3D模型的质量和一致性。

同时，SV3D引入了一个基于球面高斯的照明模型，用于分离光照效果和纹理，在保持纹理清晰度的同时有效减少了内置照明问题。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

具体到架构方面，SV3D包含以下关键组成部分：

UNet：SV3D是在SVD的基础上构建的，包含一个多层UNet，其中每一层都有一系列残差块（包括3D卷积层）和两个分别处理空间和时间信息的Transformer模块。
条件输入：输入图像通过VAE编码器嵌入到潜在空间中，会和噪声潜在状态合并，一起输入到UNet中；输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对。
相机轨迹编码：SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中，相机以规律间隔的方位角围绕对象；动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中，转换为正弦位置嵌入，然后这些嵌入信息会被整合并进行线性变换，加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入，提升模型处理图像的能力。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

此外，SV3D在生成过程中采用CFG（无分类器引导）来控制生成的清晰度，特别是在生成轨道的最后几帧时，采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D，图像分辨率为575×576，视场角为33.8度。论文透露，所有三种模型（SV3D_u，SV3D_c，SV3D_p）在4个节点上训练了6天左右，每个节点配备8个80GB的A100 GPU。

实验结果

在新视角合成（NVS）和3D重建方面，SV3D超过了现有其他方法，达到SOTA。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

从定性比较的结果来看，SV3D生成的多视角试图，细节更丰富，更接近与原始输入图像。也就是说，SV3D在理解和重构物体的3D结构方面，能够更准确地捕捉到细节，并保持视角变换时的一致性。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

这样的成果，引发了不少网友的感慨：

可以想象，在未来6-12个月内，3D生成技术将会被用到游戏和视频项目中。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

评论区也总少不了一些大胆的想法……

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

并且项目开源嘛，已经有第一波小伙伴玩上了，在4090上就能跑起来。

Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩

参考链接：
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。

以上是Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

人工智能键值对 ai开源

来源：51cto.com

上一篇：企业对人工智能的强烈需求推动了人工智能信任和安全市场下一篇：如何通过流程优化创造最大商业价值

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

数独检查器无法工作？谁能帮我识别错误？我尝试了在线编辑器上的所有方法，但仍然收到错误。但当我在我的机器上的VSCode上执行此操作时，它工作正常。我很困惑，在没有发现错误的情况下无法提交代码。我不知道该去哪里寻找了。我...

来自于 2024-04-06 21:21:07

0

1

474

放大 d3.js 时散点图点不会保持值这是我第一次使用d3.js，所以请耐心等待。我在vue.js文件中将其作为纯JavaScript实现。我正在尝试制作具有缩放功能的散点图。到目前为止，我几乎一切正常，但当我缩放时，...

来自于 2024-04-06 18:16:26

0

1

403

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

了解 Nuxtjs auth 模块的内部工作原理我实际上试图将Nuxtjsauth模块集成到我的项目中，但我无法理解auth模块的实际工作原理。如果有人帮助我理解这个概念，那将对我非常有帮助。谢谢！

来自于 2024-04-06 15:38:16

0

1

371

Node.js：无法将 SQL 查询结果存储在数组中我正在尝试将SQL查询的结果推送到数组。但是，它似乎不起作用。我在网上找不到解决方案。如果有人能帮助我解决这个问题，我将不胜感激。letdata=[];connection.que...

来自于 2024-04-06 14:14:46

0

1

373

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1422732
php入门教程之一周学会PHP

4267744
JAVA 初级入门视频教程

2531576
小甲鱼零基础入门学习Python视频教程

507132
PHP 零基础入门教程

862224

最新下载

更多>

网站特效

网站源码

网站素材

前端模板