移动互联 2023-04-18 09:38:17 0

扩散模型和Transformer梦联动！一举获得新SOTA，MILA博士：U，Net已经死了-量子位，

“U-Net死了，Transformer成了扩散模型的新SOTA！”

在ChatGPT占据AI圈风头期间，纽约大学谢赛宁的画像生成模型新论文问世，引发同行惊艳之声。

◆MILA正在读ML博士生Ethan Caballero

论文创意地融合了Transformer和扩散模型，在计算效率和生成效果方面超越了基于U-Net的经典模型ADM和LDM，打破了U-Net支配扩散模型的“普遍认知”。

网友给这个新群体命名也是脑洞：

要知道，虽然近几年Transformer占据榜首，但U-Net在扩散模式领域依然独占鳌头。

“前王者”DALLE2和“新人生成AI”Stable Diffusion都没有使用Transformer作为图像生成架构。

◆爱荷华AI科学家Jim Fan

目前的一项新研究表明，U-Net并不是不能被Transformer取代。

在“U-Net不是不可替代的”论文中提出的新体系结构称为Diffusion Transformers（DiTs）

体系结构具有许多ViT特性，其中整体体系结构为图左（包括多个DiT模块），具体DiT模块结构为图右：

右侧的两个灰色框模块是DiT体系结构中的“变体”。主要是研究在条件输入下，不同的架构能否对信息进行更好的处理，包括交叉注意力等。

最终结果表明，最终选择自适应层规格化方法的层规格化更易于使用。

对于本文研究的目的，作者希望探讨不同体系结构选择在扩散模型中的重要性，同时也是未来生成模型评价的评价标准。

首先阐述结果——作者认为，U-Net的归纳偏差（inductive bias）对于提高扩散模型的性能不是必须的。

相反，他们可以被Transformer的标准架构所取代。

一位网友发现，DALLE和DALLE2似乎对Transformer很有用。

这篇论文和它们的区别到底在哪里呢。

实际上，DALLE是Transformer，但不是扩散模型，其本质是基于VQVAE架构实现的

DALLE2和Stable Diffusion分别在CLIP和文本编码器中使用了Transformer，但关键的图像生成用的是U-Net。

△经典U-Net架构

但是，DiT不是文本生成图像模型。现在只能根据培训标签生成相应的新图像。

虽然生成的图像还包括“ImageNet风”，但英伟达AI科学家Jim Fan认为，将其改造成希望的风格，加上文本生成功能，都不是难点。

如果将标签输入调整为其他向量，甚至文本填充，则可以立即将DiT改造为文生图模型。

所以DiTs在效果和运算速度上，与其他图像生成模型相比又是怎样的呐。

为了验证ImageNet基准取得SOTA的DiTs的最终效果，研究人员将DiTs沿着“模型尺寸”和“输入标记数”两个轴进行了缩放。

具体来说，我们尝试了DiT-S、DiT-B、DiT-L、DiT-XL四种不同模型的深度和宽度布局，并在此基础上分别训练了8、4、2大小的三个潜块，共12个模型。

FID测量结果表明，像其他领域一样，模型尺寸的增加和输入标签数量的减少可以大大提高DiT的性能。

换句话说，较大的DiTs模型比较小的模型具有更高的计算效率，较大的模型较小的模型需要更少的训练计算来实现给定的FID。

其中Gflop最高的型号是DiT-XL/2，它使用最大的XL配置，patch大小为2，当训练时间足够长时，DiT-XL/2是里面的最佳型号。

因此，研究人员集中在DiT-XL/2上，在ImageNet上训练两个版本的DiT-XL/2，分辨率分别为256#215、256和512#215、512，步骤分别为7M和3M。

在使用无分类器指导时，DiT-XL/2优于以前的扩展模型数据，获得SOTA效果：

在256#215处，在256分辨率下，DiT-XL/2将LDM实现的最佳FID-50K从3.60降至2.27。

与基线相比，DiTs模型本身的计算效率更高：

DiT-XL/2的计算效率为119Gflops，LDM-4为103Gflops，ADM-U为742Gflops。

同样，在512#215，在512分辨率下，DiT-XL/2也将ADM-U之前获得的最佳FID3.85降低到3.04。

但是，此时ADM-U的计算效率为2813Gflops，XL/2只有525Gflops。

研究作者的本文作者是UC伯克利的William Peebles和纽约大学的合议。

William Peebles，现为UC伯克利四年级博士生，毕业于麻省理工学院。研究方向是深度学习和人工智能，重点是深度生成模型。

我以前在Meta、Adobe和英伟达实习过，这篇论文是在Meta实习期间完成的。

谢赛宁，纽约大学计算机科学系副教授，以前是Meta FAIR研究员，本科毕业于上海交通大学ACM班，博士毕业于UC圣地亚哥分校。

谢赛宁博士时期曾在FAIR实习，期间曾与何凯明合作完成ResNeXt，是这篇论文的一部作品，以前还参加过何凯明的论文MAE。

当然，对于此次Transformer的表现，也有研究者认为“U-Net不服”。

例如，三星AI Lab的科学家Alexia Jolicoeur-Martineau说

在图像生成领域马上就会掀起新的“比较风暴”。

论文地址：https：//arxiv.org/abs/2212.09748v1

参考链接：[1]https：//twitter.com/ethanCaballero/status/1605621603135471616[2]https：//www.wpeebles.com/DiT[3]https：//paperswithcode.com/paper/scalable-diffusion-models-with-transformers#code

标签：生成模型 ME

相关文章 关键词： 生成 模型 ME

文章评论

相关文章
关键词：生成模型 ME