清华amp;旷视让全连接层“;内卷“;,卷展栏MLP性能的新高度-量子比特

以前,清华大学和旷视科技也将7年前的架构VGG“升级”为通过结构的再参数化到SOTA的性能通用的RepVGG模型。

这个结构再参数化的研究加入了“新成员”

他们提出了一种叫做RepMLP的多层受体模型,将卷积融合到完全连接层(FC)中进行图像识别。

该模型同时结合了所有连接层的全局建模、位置感知特性和卷积层的局部结构提取能力。

结果,ImageNet数据集在人脸识别任务和语义分割三个方面实现了识别精度的提高,在大幅增加参数的同时没有造成推理速度的大幅降低(即使参数增加47%,速度也只降低2.2%)

通过折叠来加强所有连接,使其具有局部性,同时不失去整体性

为什么要通过折叠来增强所有连接

卷积网络具有局部先验特性,因此识别效果非常好。

与卷积层相比,全连接层的图像识别由于参数增加,推理速度容易变得太慢,但具有更好的全局建模、位置识别能力。

因此,研究人员将两者结合起来,在训练阶段在RepMLP内部构筑了卷积层,在推论阶段将这些卷积层合并为完全连接层。

整个流程是三步。

1、训练时,现有全连接层又有卷积,将两者输出相加;2,训练完成后,先将BN参数“吸入”到卷积核或全连接层中,然后将一个卷积变换变成全连接层,加上所有全连接层一起,等效去除卷积。3、保存并放置转换后的模型。

详细情况如下。

其中N、C、H、W分别表示batch size、输入通道数、高度、宽度。h、w、g、p、O表示各个块的高度、宽度、组数、填充像素、输出通道。

“全局感知”会将相关性添加到每个块中,因为最初输入的特征被阻塞会破坏同一通道的不同块之间的相关性。

然后,“块感知”将块特征作为输入,包括完整连接层和BN层,以进一步减少参数和计算量。

“局部感知”通过卷积核心大小分别为1,3,5,7的卷积层处理块的特征,并将所有卷积分支的输出和块感知的输出相加作为最终输出。

如何将训练阶段的卷积转换为推理阶段的完全连接层

想法与RepVGG一样,利用结构的再参数化(通过参数的等价变换进行结构的等价变换),将局部感知和块感知的输出合并,在所有连接层进行推理,除去卷积。

具体来说呢。

研究人员还解释说,卷积和完全连接层之间之所以有关系,是因为卷积像完全连接层一样被剔除,存在迭代参数。

“开玩笑”

实验结果

此研究结果如下表所示。

A是变换前的模型,计算量非常多,表示构造的再参数的重要性。

B无局部Perceptron变形,精度降低8.5%,说明局部先验的重要性。

C没有Gloabl Perceptron的变化,精度降低了1.5%。显示了全局模型的重要性。

将FC3替换为卷积的D,尽管体感范围很大,但精度却下降了3.5%,表明所有连接层都比劣化的所有连接层conv更强。

将部分Res50替换为RepMLP,提高了图像网络上ResNets的精确度1.8%

通过将图像网预训练模型迁移到人脸识别和语义分割,性能得到了提高,分别提高了2.9%的精度和2.3%的mIoU。

另外,关于速度,RepMLP虽然大幅增加了参数,但对速度没有太大影响(参数增加47%,图像网络精度增加0.31%,速度减少2.2%)

论文地址https://arxiv.org/abs/2105.01883代码:https://github.com/dingxiaoh/repmlp

返回列表
上一篇:
下一篇:

文章评论