Article Sujet apprentissage Télécharger Questions et réponses Dictionnaire de programmation Jeu mises à jour récentes

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

Maison> Périphériques technologiques> IA> le corps du texte

不会PS没关系，AI拼图技术已能以假乱真

王林

Libérer： 2023-04-04 12:15:01

avant

1043 Les gens l'ont consulté

话说这两年，“文字生成图像的扩散模型”着实大火了一把，DALL·E 2和Imagen都是基于此开发出来的应用。

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

这是一份看似平平无奇的日式便当。

但你敢信，其实每一格食物都是P上去的，而且原图还是酱婶儿的：

△直接抠图贴上去，效果一眼假

背后操作者并不是什么PS大佬，而是一只AI，名字很直白：拼图扩散（Collage Diffusion）。

随便找几张小图拿给它，AI就能自己看懂图片内容，再把各元素非常自然地拼成一张大图——完全不存在一眼假。

其效果惊艳了不少网友。

甚至还有PS爱好者直呼道：

这简直是个天赐之物……希望很快能在Automatic1111（ Stable Diffusion用户常用的网络UI，也有集成在PS中的插件版）中看到它。

为什么效果这么自然？

实际上，此AI生成的“日式便当”还有好几个生成版本——都很自然有木有。

至于为啥还有多种版本？问就是因为用户还能自定义，在总体不变得太离谱的前提下，他们可以微调各种细节。

除了“日式便当”，它还有不少出色的作品。

比如，这是拿给AI的素材，P图痕迹明显：

这是AI拼好的图，反正我愣是没看出什么P图痕迹：

话说这两年，“文字生成图像的扩散模型”着实大火了一把，DALL·E 2和Imagen都是基于此开发出来的应用。这种扩散模型的优点，是生成图片多样化、质量较高。

不过，文字终究对于目标图像，最多只能起到模糊的规范作用，所以用户通常要花大量时间调整提示（prompt），还得搭配上额外的控制组件，才可以取得不错的效果。

就拿前文展示的日式便当来说：

如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”，那就既没描述哪种食物放到哪一格，也没有说明每种食物的外观。但如果非要讲清楚的话，用户恐怕得写一篇小作文了……

鉴于此，斯坦福团队决定从别的角度出发。

他们决定参考传统思路，通过拼图来生成最终图像，并由此开发出了一种新的扩散模型。

有意思的是，说白了，这种模型也算是用经典技术“拼”出来的。

首先是分层：使用基于图层的图像编辑UI，将源图像分解成一个个RGBA图层（R、G、B分别代表红、绿、蓝，A代表透明度），然后将这些图层排列在画布上，并把每个图层和文字提示配对。

通过分层，可以修改图像中的各种元素。

到目前为止，分层已经是计算机图形领域中一项成熟的技术，不过此前分层信息一般是作为单张图片输出结果使用的。

而在这种新型“拼图扩散模型”中，分层信息成了后续操作的输入。

除了分层，还搭配了现有的基于扩散的图像协调技术，提升图像视觉质量。

总而言之，该算法不仅限制了对象的某些属性（如视觉特征）的变化，同时允许属性（方向、光照、透视、遮挡）发生改变。

——从而平衡了还原度和自然度之间的关系，生成“神似”且毫无违和感的图片。

操作过程也很easy，在交互编辑模式下，用户在几分钟内就能创作一幅拼贴画。

他们不仅可以自定义场景中的空间排列顺序（就是把从别处扣出来的图放到适当的位置）；还能调整生成图像的各个组件。用同样的源图，可以得出不同的效果。

△最右列是这个AI的输出结果

而在非交互式模式下（即用户不拼图，直接把一堆小图丢给AI），AI也能根据拿到的小图，自动拼出一张效果自然的大图。

研究团队

最后，来说说背后的研究团队，他们是斯坦福大学计算机科学系的一群师生。

论文一作，Vishnu Sarukkai现为斯坦福计算机科学系研究生，还是硕博连读的那种。

他的主要研究方向为：计算机图形学、计算机视觉和机器学习。

此外，论文的共同作者Linden Li，也是斯坦福计算机科学系研究生。

在校求学期间，他曾到英伟达实习4个月，与英伟达深度学习研究小组合作，参与训练了增加100M+参数的视觉转换器模型。

论文地址：https://arxiv.org/abs/2303.00262

不会PS没关系，AI拼图技术已能以假乱真

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

ai 图像

source：51cto.com

Article précédent：机器学习与微分方程的浅析 Article suivant：集成GPT-4的Cursor让编写代码和聊天一样简单，用自然语言编写代码的新时代已来

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Microsoft Azure déploiera l'authentification multifacteur obligatoire à partir d'octobre

2024-08-17 07:40:02
Les termes controversés du projet de partenariat de contenu de Google dévoilés : lors de l'introduction d'appareils Pixel, vous ne devez pas introduire de produits d'autres sociétés

2024-08-17 07:32:03
Obtenir la largeur d'un élément en JavaScript

2024-08-17 07:06:32
OPPO Find X8 devrait être lancé en tant que membre le plus compact de la nouvelle série phare Android

2024-08-17 07:05:39
MPG 491CQPX : MSI dévoile un nouveau moniteur de jeu QD-OLED ultra-large de 49 pouces avec un taux de rafraîchissement de 240 Hz

2024-08-17 07:05:32
Offre | L'ordinateur de poche de jeu Asus ROG Ally bénéficie d'une réduction de prix de 150 $ pour un niveau record de 499,99 $ lors de la vente Best Buy

2024-08-17 06:56:37
Anbernic RG40XX V : date de sortie et prix de lancement révélés pour le nouvel ordinateur de poche de jeu rétro

2024-08-17 06:54:02
Les meilleurs émulateurs Nintendo Switch pour Windows

2024-08-17 06:53:31
Problèmes difficiles récursifs utilisant Javascript

2024-08-17 06:53:08
Alienware dévoile un moniteur de jeu unique de 27 pouces AW2725QF avec des modes double résolution et taux de rafraîchissement

2024-08-17 06:52:38

Derniers numéros

L'interface utilisateur de Reactjs n'est pas mise à jour J'apprends React et j'ai acquis quelques bases, j'ai donc utilisé ces connaissances pour r...

Depuis 2023-08-14 17:32:30

0

1

201

Comment utiliser l'API Google Vertext AI Vision pour créer un site Web simple qui convertit les images soumises par les utilisateurs en texte. J'essaie de créer un site Web HTML/CSS/jQuery simple qui utilise l'API Google Vertext AI V...

Depuis 2023-07-21 10:47:08

0

1

224

Où sont les modèles ? IA Hé

Depuis 2019-06-04 10:48:28

0

0

906

大家好，请问在python脚本中怎么用virtualenv激活指定的环境？我是想在py脚本执行时，激活指定的环境。可以做到吗？ PS:我是李世石，我已经弃围棋从AI了，大家多指教！

Depuis 2017-04-18 10:24:27

0

3

593

c++ - 如何使用开源围棋智能算法？我在用Unity3D做一个围棋的游戏，单机的部分需要一个AI找到了开源的Fuego和Pachi，但是下载下来的是一个C/C++的工程应该怎么使用呢？求指导！（我的需求是传过去一个棋...

Depuis 2017-04-17 13:11:11

0

2

493

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal

À propos de nous Clause de non-responsabilité Sitemap: Site Web PHP chinois：Formation PHP en ligne sur le bien-être public，Aidez les apprenants PHP à grandir rapidement！