社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 视觉AI能力大一统！自动化图像检测分割，还能可控文生图，华人团队出品

视觉AI能力大一统！自动化图像检测分割，还能可控文生图，华人团队出品

王林

发布： 2023-04-12 17:31:17

转载

1114 人浏览过

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

现在AI圈确实到了拼手速的时候啊。

这不，Meta的SAM刚刚推出几天，就有国内程序猿来了波buff叠加，把目标检测、分割、生成几大视觉AI功能all in one！

比如基于Stable Diffusion和SAM，就能让照片中的椅子无缝换成沙发：

换装、换发色也是so easy：

项目一经发布就让不少人惊呼：手速也太快了吧！

还有人表示：我和新垣结衣的新结婚照有了。

如上就是Gounded-SAM带来的效果，项目在GitHub上已揽星1.8k。

简单来说，这就是一个zero-shot视觉应用，只需要输入图片，就能自动化检测和分割图像。

该研究来自IDEA研究院（粤港澳大湾区数字经济研究院），创始人兼理事长为沈向洋。

无需额外训练

Grounded SAM主要由Grounding DINO和SAM两个模型组成。

其中SAM（Segment Anything）是4天前Meta刚刚推出的零样本分割模型。

它可以为图像/视频中的任何物体生成mask，包括训练过程中没出现过的物体和图像。

通过让SAM对于任何提示都返回有效的mask，能够让模型在即使提示是模糊的或者指向多个对象的情况下，输出也应该是所有可能中一个合理的mask。这一任务用于预训练模型并通过提示解决一般的下游分割任务。

模型框架主要由一个图像编码器、一个提示编码器和一个快速mask解码器组成。在计算图像嵌入后，SAM能够在50毫秒内根据web中的任何提示生成一个分割。

Grounding DINO是该研究团队已有的成果。

这是一个零样本检测模型，能够生成带有文字描述的物体box和标签。

二者结合后，可以通过文本描述找到图片中的任意物体，然后通过SAM强大的分割能力，细粒度地分割出mask.

在这些能力之上，他们还叠加了Stable Diffusion的能力，也就是开头所展示的可控图像生成。

值得一提的是，Stable Diffusion此前也能够实现类似功能。只要涂抹掉想替换的图像元素，再输入文本提示就可以。

这一回，Grounded SAM能够省去手动选区这个步骤，直接通过文本描述来控制。

另外结合BLIP（Bootstrapping Language-Image Pre-training），生成图片标题、提取标签，再生成物体box和mask。

目前，还有更多有趣的功能正在开发中。

比如人物方面的一些拓展：更换衣服、发色、肤色等。

具体食用方法也已在GitHub上给出。项目需要Python 3.8以上版本，pytorch 1.7以上版本，torchvision 0.8以上版本，并要安装相关依赖项。具体内容可看GitHub项目页。

该研究团队来自IDEA研究院（粤港澳大湾区数字经济研究院）。

公开消息显示，该研究院是一所面向人工智能、数字经济产业及前沿科技的国际化创新型研究机构，前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

One More Thing

对于Grounded SAM的未来工作，团队有几点展望：

自动生成图像构成新数据集
具有分割预训练的强大基础模型
和（Chat-）GPT合作
构成一个自动生成图像标签、box和mask的pipeline，并能生成新的图像。

值得一提的是，该项目的团队成员中，有不少都是知乎AI领域活跃的答主，这次也在知乎上自答了关于Grounded SAM的内容，感兴趣的童鞋可以去留言请教~

以上是视觉AI能力大一统！自动化图像检测分割，还能可控文生图，华人团队出品的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

ai 模型

来源：51cto.com

上一篇：一句话让三维模型生成逼真外观风格，精细到照片级细节下一篇：物理学家狂喜的AI工具开源了！靠实验数据直接发现物理公式，笔记本就能跑

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

创造未来：面向零基础的 Java 编程

2024-10-13 13:32:21
你并不孤单：在社区的支持下掌握 Python

2024-10-12 11:58:51
从新手到程序员：利用 Python 编程的力量

2024-10-11 20:06:51
像程序员一样思考：学习 Java 基础知识

2024-10-11 18:59:31
Java 变得简单：编程能力的初学者指南

2024-10-11 18:30:51
使用 PHP 构建博客：一个适合初学者的项目

2024-10-11 15:51:51
讲系统语言：学习 C，一次一行

2024-10-11 15:42:10
C 语言的数据结构和算法：适合初学者的方法

2024-10-11 14:41:20
不流泪编码：轻松学习 C

2024-10-11 14:08:31
使用 Java 进行数据分析：信息处理初学者指南

2024-10-11 13:42:21

最新问题

在多个路由中声明的workerpool是否仍然可以保持其cpu使用率而不关心阈值我希望找到一个带有workerpool的node.js系统来处理CPU密集型任务，但是对于多条路由中的cpu使用情况，我有些困惑。一个场景是这样的：route1.js:constw...

来自于 2024-04-06 19:54:23

0

1

444

使用MySQL SQL查询计算另一张表中字段的总和我有一个这样的模式：具有属性“user_id”和“username”的用户表以及具有属性“customer_id”（user_id的FK）和“finalPrice”的订单表数据库架...

来自于 2024-04-06 19:39:29

0

1

441

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

在模板中使用在方法中定义的变量这是我第一次使用Vue（v2而不是v3），并且我一直在尝试在模板内使用变量（在方法内定义）。我的简化代码：<template><divclass="co...

来自于 2024-04-06 18:10:25

0

2

513

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1421868
php入门教程之一周学会PHP

4266467
JAVA 初级入门视频教程

2520706
小甲鱼零基础入门学习Python视频教程

506659
PHP 零基础入门教程

861713

最新下载

更多>

网站特效

网站源码

网站素材

前端模板