清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？( 五 ) 最近

文章图片
在表5中，所有方法中mIoU得分最高的验证集上的结果。与PVT相比，小模型在参数更少的情况下也超过PVT-S0.5mIoU ，并且在+3.1和+2.5中实现了显著的提升。 DAT在3个模型尺度上都比SwinTransformer有显著的改进，在mIoU中的分别提升了+1.0、+0.7和+1.2 ，显示了方法的有效性。
4.4消融实验
1、几何信息开发

文章图片
首先评估了提出的可变形偏移量和可变形相对位置嵌入的有效性，如表6所示。无论是在特征采样中采用偏移量，还是使用可变形的相对位置嵌入，都提供了+0.3的提升。作者还尝试了其他类型的位置嵌入，包括固定的可学习位置偏差中的深度卷积。但在没有位置嵌入的情况下，只提升了0.1 ，这表明变形相对位置偏差更符合Deformableattention 。从表6中的第6行和第7行也可以看出，模型可以在前两个阶段适应不同的注意力模块，并取得有竞争的结果。 SRA在前两个阶段的模型在65%的FLOPs上比PVT-M高出0.5倍。
2、不同Stage使用Deformableattention

文章图片
用不同阶段的Deformableattention取代了SwinTransformershiftwindowattention 。如表7所示，只有替换最后一个阶段的注意力才能提高0.1 ，替换最后两个阶段的性能才能提高0.7（总体精度达到82.0）。然而，在早期阶段用更多Deformableattention代替，会略微降低精度。
4.5可视化结果

文章图片
如图所示，采样点被描述在目标检测框和实例分割Mask的顶部，从中可以看到这些点被移到了目标上。
在左边一列中，变形的点被收缩成两个目标长颈鹿，而其他的点则是保持一个几乎均匀的网格和较小的偏移量。
在中间的一列中，变形点密集地分布在人的身体和冲浪板中。
右边的一列显示了变形点对六个甜甜圈的每个焦点，这表明本文的模型有能力更好地建模几何形状，即使有多个目标。
上述可视化表明， DAT可以学习到有意义的偏移量，以采样更好的注意力key ，以提高各种视觉任务的表现。
参考链接
[1].VisionTransformerwithDeformableAttention.
GAIR2021大会首日：18位Fellow的40年AI岁月，一场技术前沿的传承与激辩
2021-12-10
致敬传奇：中国并行处理四十年，他们从无人区探索走到计算的黄金时代|GAIR2021
2021-12-09
时间的力量——1991人工智能大辩论30周年纪念：主义不再，共融互生｜GAIR2021
2021-12-12
论智三易，串联通讯，贯通边缘，演进认知，汇于机器：听五位IEEEFellow畅谈AI未来|GAIR2021
2021-12-25
新一代AI人才从哪里来，该往哪里去？|GAIR2021院长论坛
2021-12-29