近年来,多模态学习受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率
2023-04-10评论:0访问次数:1129
新年伊始,谷歌AI又开始发力文字-图像生成模型了。这次,他们的新模型Muse(缪斯)在CC3M数据集上达成了新SOTA(目前最佳水平)。而且其效率远超火爆全球的DALL·E 2和Imagen (这俩都属于扩散模型),以及Parti (属于自回归模型)。——单张512x512分辨率图像的生成时间被压缩到仅1.3秒。在图像编辑方面,只需一句文字指令,就可以对原始图像进行编辑。(貌似不用再为学ps头秃了~)如果想要效果更精准,还能选定遮罩位置,编辑特定区域。比如,把背景的建筑换成热气球。Muse一经官
2023-04-11评论:0访问次数:1238
在标准的UNet结构中,longskipconnection上的scaling系数一般为1。然而,在一些著名的扩散模型工作中,比如Imagen,Score-basedgenerativemodel,以及SR3等等,它们都设置了,并发现这样的设置可以有效加速扩散模型的训练。质疑Scaling然而,Imagen等模型对skipconnection的Scaling操作在原论文中并没有具体的分析,只是说这样设置有助于加速扩散模型的训练。首先,这种经验上的展示,让我们并搞不清楚到底这种设置发挥了什么作用?另外,我们
2024-03-01评论:访问次数:245
在文本转图像上卷了大半年之后,Meta、谷歌等科技巨头又将目光投向了一个新的战场:文本转视频。上周,Meta 公布了一个能够生成高质量短视频的工具——Make-A-Video,利用这款工具生成的视频非常具有想象力。当然,谷歌也不甘示弱。刚刚,该公司 CEO Sundar Pichai 亲自安利了他们在这一领域的最新成果:两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质,后者主要挑战视频长度,可以说各有千秋。下面这个洗盘子的泰迪熊就是用 Imagen Video
2023-04-13评论:0访问次数:806
大模型已成为 AI 圈的一种潮流,不仅横扫各大性能榜单,更产生了诸多有趣应用。例如,微软和 OpenAI 开发的自动代码建议补全神器 Copilot,化身程序员最佳助手,提升工作效率。OpenAI 刚刚发布能以假乱真的文本生成图像模型 DALL-E 2,Google 便紧接着发布了 Imagen,在大模型上,大公司也是相当的卷,丝毫不比 CV 刷榜差。文本到图像生成样例“一个被猫绊倒的希腊人雕像”(左侧两列为 Imagen,右侧两列为 DALL·E 2)模型增大带来的神奇表现,使得近几年预训练
2023-04-09评论:0访问次数:739