搜索

没有相关内容~

扩散+超分辨率模型强强联合，谷歌图像生成器Imagen背后的技术
近年来，多模态学习受到重视，特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注，例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2，以及英伟达的 GauGAN 和 GauGAN2。谷歌也不甘落后，在 5 月底发布了自己的文本到图像模型 Imagen，看起来进一步拓展了字幕条件（caption-conditional）图像生成的边界。仅仅给出一个场景的描述，Imagen 就能生成高质量、高分辨率
2023-04-10评论:0访问次数:1129
效率碾压DALL·E 2和Imagen，谷歌新模型达成新SOTA，还能一句话搞定PS
新年伊始，谷歌AI又开始发力文字-图像生成模型了。这次，他们的新模型Muse（缪斯）在CC3M数据集上达成了新SOTA（目前最佳水平）。而且其效率远超火爆全球的DALL·E 2和Imagen （这俩都属于扩散模型），以及Parti （属于自回归模型）。——单张512x512分辨率图像的生成时间被压缩到仅1.3秒。在图像编辑方面，只需一句文字指令，就可以对原始图像进行编辑。（貌似不用再为学ps头秃了~）如果想要效果更精准，还能选定遮罩位置，编辑特定区域。比如，把背景的建筑换成热气球。Muse一经官
2023-04-11评论:0访问次数:1238
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling
在标准的UNet结构中，longskipconnection上的scaling系数一般为1。然而，在一些著名的扩散模型工作中，比如Imagen，Score-basedgenerativemodel，以及SR3等等，它们都设置了，并发现这样的设置可以有效加速扩散模型的训练。质疑Scaling然而，Imagen等模型对skipconnection的Scaling操作在原论文中并没有具体的分析，只是说这样设置有助于加速扩散模型的训练。首先，这种经验上的展示，让我们并搞不清楚到底这种设置发挥了什么作用？另外，我们
2024-03-01评论:访问次数:245
图像生成卷腻了，谷歌全面转向文字→视频生成，两大利器同时挑战分辨率和长度
在文本转图像上卷了大半年之后，Meta、谷歌等科技巨头又将目光投向了一个新的战场：文本转视频。上周，Meta 公布了一个能够生成高质量短视频的工具——Make-A-Video，利用这款工具生成的视频非常具有想象力。当然，谷歌也不甘示弱。刚刚，该公司 CEO Sundar Pichai 亲自安利了他们在这一领域的最新成果：两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质，后者主要挑战视频长度，可以说各有千秋。下面这个洗盘子的泰迪熊就是用 Imagen Video
2023-04-13评论:0访问次数:806
无缝支持Hugging Face社区，Colossal-AI低成本轻松加速大模型
大模型已成为 AI 圈的一种潮流，不仅横扫各大性能榜单，更产生了诸多有趣应用。例如，微软和 OpenAI 开发的自动代码建议补全神器 Copilot，化身程序员最佳助手，提升工作效率。OpenAI 刚刚发布能以假乱真的文本生成图像模型 DALL-E 2，Google 便紧接着发布了 Imagen，在大模型上，大公司也是相当的卷，丝毫不比 CV 刷榜差。文本到图像生成样例“一个被猫绊倒的希腊人雕像”（左侧两列为 Imagen，右侧两列为 DALL·E 2）模型增大带来的神奇表现，使得近几年预训练
2023-04-09评论:0访问次数:739

更多杂文

扩散+超分辨率模型强强联合，谷歌图像生成器Imagen背后的技术

效率碾压DALL·E 2和Imagen，谷歌新模型达成新SOTA，还能一句话搞定PS

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

图像生成卷腻了，谷歌全面转向文字→视频生成，两大利器同时挑战分辨率和长度

无缝支持Hugging Face社区，Colossal-AI低成本轻松加速大模型

php.cn