扩散模型和Transformer梦联动!一举获得新SOTA,MILA博士:U,Net已经死了-量子位,

“U-Net死了,Transformer成了扩散模型的新SOTA!”

在ChatGPT占据AI圈风头期间,纽约大学谢赛宁的画像生成模型新论文问世,引发同行惊艳之声。

◆MILA正在读ML博士生Ethan Caballero

论文创意地融合了Transformer和扩散模型,在计算效率和生成效果方面超越了基于U-Net的经典模型ADM和LDM,打破了U-Net支配扩散模型的“普遍认知”。

网友给这个新群体命名也是脑洞:

要知道,虽然近几年Transformer占据榜首,但U-Net在扩散模式领域依然独占鳌头。

“前王者”DALLE2和“新人生成AI”Stable Diffusion都没有使用Transformer作为图像生成架构。

◆爱荷华AI科学家Jim Fan

目前的一项新研究表明,U-Net并不是不能被Transformer取代。

在“U-Net不是不可替代的”论文中提出的新体系结构称为Diffusion Transformers(DiTs)

体系结构具有许多ViT特性,其中整体体系结构为图左(包括多个DiT模块),具体DiT模块结构为图右:

右侧的两个灰色框模块是DiT体系结构中的“变体”。主要是研究在条件输入下,不同的架构能否对信息进行更好的处理,包括交叉注意力等。

最终结果表明,最终选择自适应层规格化方法的层规格化更易于使用。

对于本文研究的目的,作者希望探讨不同体系结构选择在扩散模型中的重要性,同时也是未来生成模型评价的评价标准。

首先阐述结果——作者认为,U-Net的归纳偏差(inductive bias)对于提高扩散模型的性能不是必须的。

相反,他们可以被Transformer的标准架构所取代。

一位网友发现,DALLE和DALLE2似乎对Transformer很有用。

这篇论文和它们的区别到底在哪里呢。

实际上,DALLE是Transformer,但不是扩散模型,其本质是基于VQVAE架构实现的

DALLE2和Stable Diffusion分别在CLIP和文本编码器中使用了Transformer,但关键的图像生成用的是U-Net。

△经典U-Net架构

但是,DiT不是文本生成图像模型。现在只能根据培训标签生成相应的新图像。

虽然生成的图像还包括“ImageNet风”,但英伟达AI科学家Jim Fan认为,将其改造成希望的风格,加上文本生成功能,都不是难点。

如果将标签输入调整为其他向量,甚至文本填充,则可以立即将DiT改造为文生图模型。

所以DiTs在效果和运算速度上,与其他图像生成模型相比又是怎样的呐。

为了验证ImageNet基准取得SOTA的DiTs的最终效果,研究人员将DiTs沿着“模型尺寸”和“输入标记数”两个轴进行了缩放。

具体来说,我们尝试了DiT-S、DiT-B、DiT-L、DiT-XL四种不同模型的深度和宽度布局,并在此基础上分别训练了8、4、2大小的三个潜块,共12个模型。

FID测量结果表明,像其他领域一样,模型尺寸的增加和输入标签数量的减少可以大大提高DiT的性能。

换句话说,较大的DiTs模型比较小的模型具有更高的计算效率,较大的模型较小的模型需要更少的训练计算来实现给定的FID。

其中Gflop最高的型号是DiT-XL/2,它使用最大的XL配置,patch大小为2,当训练时间足够长时,DiT-XL/2是里面的最佳型号。

因此,研究人员集中在DiT-XL/2上,在ImageNet上训练两个版本的DiT-XL/2,分辨率分别为256#215、256和512#215、512,步骤分别为7M和3M。

在使用无分类器指导时,DiT-XL/2优于以前的扩展模型数据,获得SOTA效果:

在256#215处,在256分辨率下,DiT-XL/2将LDM实现的最佳FID-50K从3.60降至2.27。

与基线相比,DiTs模型本身的计算效率更高:

DiT-XL/2的计算效率为119Gflops,LDM-4为103Gflops,ADM-U为742Gflops。

同样,在512#215,在512分辨率下,DiT-XL/2也将ADM-U之前获得的最佳FID3.85降低到3.04。

但是,此时ADM-U的计算效率为2813Gflops,XL/2只有525Gflops。

研究作者的本文作者是UC伯克利的William Peebles和纽约大学的合议。

William Peebles,现为UC伯克利四年级博士生,毕业于麻省理工学院。研究方向是深度学习和人工智能,重点是深度生成模型。

我以前在Meta、Adobe和英伟达实习过,这篇论文是在Meta实习期间完成的。

谢赛宁,纽约大学计算机科学系副教授,以前是Meta FAIR研究员,本科毕业于上海交通大学ACM班,博士毕业于UC圣地亚哥分校。

谢赛宁博士时期曾在FAIR实习,期间曾与何凯明合作完成ResNeXt,是这篇论文的一部作品,以前还参加过何凯明的论文MAE。

当然,对于此次Transformer的表现,也有研究者认为“U-Net不服”。

例如,三星AI Lab的科学家Alexia Jolicoeur-Martineau说

在图像生成领域马上就会掀起新的“比较风暴”。

论文地址:https://arxiv.org/abs/2212.09748v1

参考链接:[1]https://twitter.com/ethanCaballero/status/1605621603135471616[2]https://www.wpeebles.com/DiT[3]https://paperswithcode.com/paper/scalable-diffusion-models-with-transformers#code

返回列表
上一篇:
下一篇:

文章评论