清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?( 五 )

清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
在表5中 , 所有方法中mIoU得分最高的验证集上的结果 。 与PVT相比 , 小模型在参数更少的情况下也超过PVT-S0.5mIoU , 并且在+3.1和+2.5中实现了显著的提升 。 DAT在3个模型尺度上都比SwinTransformer有显著的改进 , 在mIoU中的分别提升了+1.0、+0.7和+1.2 , 显示了方法的有效性 。
4.4消融实验
1、几何信息开发
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
首先评估了提出的可变形偏移量和可变形相对位置嵌入的有效性 , 如表6所示 。 无论是在特征采样中采用偏移量 , 还是使用可变形的相对位置嵌入 , 都提供了+0.3的提升 。 作者还尝试了其他类型的位置嵌入 , 包括固定的可学习位置偏差中的深度卷积 。 但在没有位置嵌入的情况下 , 只提升了0.1 , 这表明变形相对位置偏差更符合Deformableattention 。 从表6中的第6行和第7行也可以看出 , 模型可以在前两个阶段适应不同的注意力模块 , 并取得有竞争的结果 。 SRA在前两个阶段的模型在65%的FLOPs上比PVT-M高出0.5倍 。
2、不同Stage使用Deformableattention
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
用不同阶段的Deformableattention取代了SwinTransformershiftwindowattention 。 如表7所示 , 只有替换最后一个阶段的注意力才能提高0.1 , 替换最后两个阶段的性能才能提高0.7(总体精度达到82.0) 。 然而 , 在早期阶段用更多Deformableattention代替 , 会略微降低精度 。
4.5可视化结果
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花?
文章图片
如图所示 , 采样点被描述在目标检测框和实例分割Mask的顶部 , 从中可以看到这些点被移到了目标上 。
在左边一列中 , 变形的点被收缩成两个目标长颈鹿 , 而其他的点则是保持一个几乎均匀的网格和较小的偏移量 。
在中间的一列中 , 变形点密集地分布在人的身体和冲浪板中 。
右边的一列显示了变形点对六个甜甜圈的每个焦点 , 这表明本文的模型有能力更好地建模几何形状 , 即使有多个目标 。
上述可视化表明 , DAT可以学习到有意义的偏移量 , 以采样更好的注意力key , 以提高各种视觉任务的表现 。
参考链接
[1].VisionTransformerwithDeformableAttention.
GAIR2021大会首日:18位Fellow的40年AI岁月 , 一场技术前沿的传承与激辩
2021-12-10
致敬传奇:中国并行处理四十年 , 他们从无人区探索走到计算的黄金时代|GAIR2021
2021-12-09
时间的力量——1991人工智能大辩论30周年纪念:主义不再 , 共融互生|GAIR2021
2021-12-12
论智三易 , 串联通讯 , 贯通边缘 , 演进认知 , 汇于机器:听五位IEEEFellow畅谈AI未来|GAIR2021
2021-12-25
新一代AI人才从哪里来 , 该往哪里去?|GAIR2021院长论坛
2021-12-29