最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 本文-Attention学习方法

    卷积和自注意力是两种强大的表示学习方法,它们通常被认为是两种不同的方法。

    本文证明了它们之间存在很强的潜在关系,因为这两种方法的大部分计算实际上都是使用相同的操作完成的。具体来说:

    首先证明了卷积可以分解成独立的卷积;

    然后,执行移位和求和操作;

    然后,将 Self-Attention 模块中 query、key 和 value 的投影解释为多次卷积,然后计算注意力权重和值的聚合。

    因此,两个模块的第一阶段都包含类似的操作。更重要的是,与第二阶段相比,第一阶段的计算复杂度(通道的平方)占主导地位。

    这种观察自然导致了这两种看似不同的范式的优雅整合,即一种混合模型,它同时考虑了自注意力和卷积的优点,同时具有较少的计算开销。大量实验表明,我们的方法在图像识别和下游任务上取得了不断改进的结果。

    论文链接:

    一、简介

    近年来,卷积和自注意力在计算机视觉领域取得了长足的进步。卷积神经网络广泛用于图像识别、语义分割和对象检测,并在各种基准测试中取得了最先进的性能。最近,随着 Vision Transformer 的出现,基于 Self-Attention 的模块在许多视觉任务上取得了与 CNN 同类产品相当甚至更好的性能。

    尽管这两种方法都取得了巨大的成功,但卷积和自注意力模块通常遵循不同的设计范式。传统的卷积利用基于卷积权重的局部感受野上的聚合函数,这些权重在整个特征图中共享。固有特征为图像处理带来了至关重要的归纳偏差。

    相比之下,Self-Attention 模块采用基于输入特征上下文的加权平均操作,通过相关像素对之间的相似度函数动态计算注意力权重。这种灵活性使注意力模块能够自适应地关注不同区域并捕获更多特征。

    考虑到卷积和 Self-Attention 的不同和互补性质,通过集成这些模块,有可能从这两种范式中受益。之前的工作从几个不同的角度探索了 Self-Attention 和卷积的结合。

    早期的研究,如 SENet、CBAM,表明 Self-Attention 可以用作卷积模块的增强。最近,Self-Attention 被提出作为一个独立的块来替代 CNN 模型中的传统卷积,例如 SAN、BoTNet。

    另一项研究侧重于将 Self-Attention 和卷积结合在单个 Block 中,例如 AA-ResNet、Container神经网络权值直接确定法,而这种架构仅限于为每个 Block 设计独立的路径。因此,现有方法仍然将 Self-Attention 和卷积视为不同的部分,并没有充分利用它们之间的内在关系。

    在本文中,作者试图揭示 Self-Attention 和卷积之间更密切的关系。分解这两个模块的操作表明它们严重依赖于相同的卷积操作。作者基于这一观察开发了一个名为 ACmix 的混合模型,并以最小的计算开销优雅地集成了 Self-Attention 和卷积。

    具体来说:

    首先,通过使用卷积映射输入特征得到一组丰富的中间特征;

    · 然后,根据不同的模式(分别为Self-Attention和Convolution)重用和聚合中间特征。

    如此一来,ACmix 既享受了两个模块的优势,又有效避免了两次昂贵的投影操作。

    主要贡献:

    1. 揭示了 Self-Attention 和卷积之间强大的底层关系,为理解两个模块之间的联系提供了新的视角,并为设计新的学习范式提供了灵感;

    2. 引入了 Self-Attention 和 Convolutional 模块的优雅集成,具有两者的优点。经验证据表明,混合模型始终优于纯卷积或自注意力模型。

    二、相关工作

    卷积神经网络使用卷积核来提取局部特征,并已成为各种视觉任务中最强大和最常规的技术。同时,Self-Attention 在 BERT 和 GPT3 等广泛的语言任务中也表现出普遍的表现。理论分析表明,Self-Attention 在容量足够大的情况下可以表示任意卷积层的函数类。因此,最近的一项研究探索了将自我注意引入视觉任务的可能性。

    主要有两种方法:

    一种是使用 Self-Attention 作为网络中的构建块;

    另一种是使用Self-Attention和卷积作为互补部分。

    2.1仅限自注意

    一些研究表明,Self-Attention 可以完全替代卷积操作。最近,Vision Transformer 表明,如果有足够的数据,可以将图像视为 256 个标记的序列,并利用 Transformer 模型在图像识别方面取得有竞争力的结果。此外,在检测、分割和点云识别等视觉任务中采用了 Transformer 范式。

    2.2 带有注意力提升的卷积

    多个先前提出的图像注意机制表明,它可以克服卷积网络的局部性限制。因此,许多研究人员探索使用注意力模块或利用更多关系信息来增强卷积网络功能的可能性。

    · Squeeze-andExcitation(SE)和Gather-Excite(GE)为每个通道重新加权特征图。

    · BAM 和 CBAM 重新加权通道和空间位置,以更好地细化特征图。

    AA-ResNet 通过连接来自另一个独立 Self-Attention 的注意力图来增强一些卷积层。

    BoTNet 用 Self-Attention 代替卷积。

    一些工作旨在通过聚合来自更大范围像素的信息来设计更灵活的特征提取器。胡等人。提出了一种局部关系方法,根据局部像素的组成关系自适应确定聚合权重。王等人。提出了一个 Non-Local 网络,通过在全局像素之间引入一个 Non-Local 相似块来增加感受野。

    2.3 用卷积提高注意力

    随着 Vision Transformer 的出现,许多基于 Transformer 的变体被提出并在计算机视觉任务上取得了显着的改进。其中,现有的研究主要集中在 Transformer 模型上的卷积运算,以引入额外的归纳偏置。

    · CvT在Token过程中使用卷积,使用卷积来降低Self-Attention的计算复杂度。

    ViT with convolutional stem 建议在早期阶段增加卷积以获得更稳定的训练。

    CSwin Transformer 采用基于卷积的位置编码技术,并针对下游任务进行了改进。

    Conformer 将 Transformer 与单独的 CNN 模型结合起来,将这两个功能集成在一起。

    三、旧知识回顾

    3.1 卷积运算

    卷积是现代卷积网络最重要的组成部分之一。首先回顾一下标准的卷积操作,并从不同的角度对其进行重新表述。如图2(a)所示。为简单起见,假设卷积的步长为 1。

    考虑一个标准卷积,其中 k 是内核大小, , 是输入和输出通道的大小。

    输入和输出张量是已知的,其中 H、W 表示高度和宽度,让 , 因为像素分别对应于 F 和 G。那么标准卷积可以表示为:

    表示内核位置 (p,q) 的内核权重。

    为方便起见,公式 (1) 可以重写为来自不同内核位置的特征图的总和:

    为了进一步简化公式,定义了 Shift 操作,

    作为

    Δx 和 Δy 是水平和垂直位移。公式 (3) 可以重写为:

    因此,标准卷积可以概括为 2 个阶段:

    图 2(a)

    阶段 1:从某个位置线性投影输入特征图,与标准的 1×1 卷积相同。

    第二阶段:将投影的特征图根据内核位置进行移位,最后聚合在一起。可以很容易地观察到,大部分计算成本是在 1×1 卷积中执行的,而随后的置换和聚合是轻量级的。

    3.2 个自注意动作

    注意机制也广泛用于视觉任务。Attention 允许模型在比传统卷积更大的范围内关注重要区域。如图2(b)所示。

    考虑一个具有 N 个 Heads 的标准 Self-Attention 模块。让输入张量和输出张量相加,其中H,W代表高度和宽度,让,

    因为像素分别对应于 F 和 G。然后,注意力模块的输出计算为:

    ∣∣ 是 N 个注意力头输出的串联, , , 是查询、键和值的投影矩阵。表示像素的局部区域,空间范围k为中心,为内部特征对应的注意力权重。

    对于广泛采用的自我注意模块,注意权重计算为:

    其中 d 是 的特征维度。

    此外,多头自注意力可以分解为两个阶段并重新表述为:

    图 2(b)

    第一阶段:使用1×1卷积将输入特征投影为query、key和value;

    第二阶段:包括注意力权重的计算和值矩阵的聚合,即聚合局部特征。与第一阶段相比,相应的计算量更小,与卷积是同一种模式。

    3.3 计算成本

    为了充分了解卷积模块和自注意力模块的计算瓶颈,作者分析了每个阶段的浮点运算(FLOPs)和参数数量,总结如表 1。

    结果表明:

    对于卷积模块:卷积第一阶段的理论FLOP和参数相对于通道大小C具有二次复杂度,而第二阶段的计算成本是线性C,不需要额外的训练参数。

    对于self-attention模块:发现了一个类似卷积的趋势,所有训练参数都保持在第一阶段。对于理论 FLOP,在 ResNet 类模型中考虑正常情况,其中 = 7 和 C = 64、128、256、512 个不同的层深度。结果表明,第一阶段消耗的操作量为 ,并且随着通道大小的增长,这种差异变得更加明显。

    为了进一步验证分析的有效性,作者还总结了 ResNet50 模型中卷积和自注意力模块的实际计算成本。事实上,所有 3×3 卷积模块的成本加起来就是为了从模型的角度反映这一趋势。计算结果表明,99%的卷积计算和83%的self-attention都在第一阶段,与理论分析一致。

    四、本文方法

    4.1 将 self-attention 与卷积联系起来

    前面介绍了self-attention和卷积模块的分解,从多个角度揭示了更深层次的关系。首先,这两个阶段的作用非常相似。第一阶段是一个特征学习模块,两种方法通过执行卷积将特征投影到更深的空间来共享相同的操作。另一方面,第二阶段对应于特征聚合的过程。

    从计算的角度来看,第一阶段的卷积模块和自注意力模块执行的卷积都需要理论浮点数和通道大小参数的二次复杂度 C。相比之下,在第二阶段,两个模块都是轻量级的或几乎不需要计算。

    综上所述,以上分析表明:

    卷积和self-attention在通过卷积投影输入特征图的操作上其实是一样的,也是两个模块的计算成本;

    尽管对于捕获语义特征至关重要,但第二阶段的聚合操作是轻量级的,不需要获取额外的学习参数。

    4.2 Self-Attention 和卷积的集成

    上述观察自然导致卷积和自注意力的完美结合。由于两个模块共享相同的卷积操作,因此只执行一个投影,这些中间特征图分别用于不同的聚合操作。因此本文作者提出了如图2©所示的混合模块ACmix。

    图 2©

    具体来说,ACmix仍然包括两个阶段:

    1.第一阶段:输入特征通过3个1×1卷积投影,然后reshape成N Pieces。因此,获得了一组丰富的包含 3×N 特征图的中间特征。

    2.在第二阶段:他们遵循不同的范式。对于自注意力路径,中间特征被分成 N 组,每组包含 3 个特征,每组来自 1×1 卷积。沿用传统的多头自注意力模块,对应的三个特征图分别用作查询、键和值。对于内核大小为 k 的卷积路径,使用轻量级全连接层生成特征图。因此,通过对生成的特征进行移位和聚合,对输入特征进行卷积,并像常规一样从局部感受野收集信息。

    最后,将两条路径的输出相加,其强度由两个可学习的标量控制:

    4.3 改进移位和求和

    如第 2 节和图 2 所示,卷积路径中的中间特征遵循传统卷积模块中的移位和求和操作。尽管它们在理论上是轻量级的,但在不同方向上移动张量实际上会破坏数据局部性,从而难以实现矢量化实现。这会极大地影响推理的实际效率。

    图 3

    作为补救措施,使用具有固定内核的深度卷积代替低效的张量位移,如图 3(b) 所示。以移位特征为例,计算为:

    其中 c 表示每个输入特征的通道。

    另一方面,如果卷积核(内核大小 k = 3) 表示为:

    对应的输出可以表示为:

    因此,对于特定的位移方向,通过精心设计的核权重,卷积输出相当于一个简单的张量位移。为了进一步合并来自不同方向的特征的总和,我们分别连接所有输入特征和卷积核,并将移位操作表示为单组卷积,如图 3(cI) 所示。这种修改使模块的计算效率更高。

    在此基础上,还引入了一些适配,以增强模块的灵活性。如图3(c.II)所示,卷积核作为可学习的权重被释放,移位核被用作初始化。这增加了模型的容量,同时保持了原有的换档操作能力。还使用多组卷积核来匹配卷积的输出通道维度和自注意力路径,如图3(c.III)所示。

    4.4ACmix 计算成本

    为了更好地比较,表 1 总结了 ACmix 的 FLOPs 和参数。

    第一阶段的计算成本和训练参数与self-attention相同,比3×3 conv等传统卷积更轻。在第二阶段,ACmix 引入了额外的计算开销(全连接层和组卷积),其计算复杂度与通道大小 C 呈线性关系,相对较小的阶段,即 ResNet50 模型的实际成本和理论分析显示出相似的趋势。

    4.5 其他注意力模式的泛化

    随着自注意力机制的发展,许多研究都集中在探索注意力的变化以进一步提高模型性能。一些学者提出的 Patchwise attention 将来自局部区域的所有特征的信息组合成注意力权重,取代了原来的 softmax 操作。swin-transformer采用的window attention方法在同一个局部窗口中保持token的感受野相同,以节省计算成本,实现较快的推理速度。另一方面,ViT 和 DeiT 考虑将长期依赖关系保持在单层中的全局注意力。这些修改被证明在特定模型架构下是有效的。

    在这种情况下,值得注意的是,所提出的 ACmix 独立于自注意公式,并且可以很容易地应用于上述变体。具体来说,注意力权重可以总结为:

    其中 [ ] 表示特征连接,φ(·) 表示具有中间非线性激活的两个线性投影层,Wk(i,j) 是每个查询标记的专用感受野,W 表示整个特征图。然后,计算出的注意力权重可以应用于方程。(12) 并符合通式。

    五、实验

    5.1ImageNet

    分类结果如上图所示。对于 ResNet-ACmix 模型,其性能优于具有可比较的浮点数或参数的所有基线。

    例如,ResNet-ACmix 26 实现了与 SASA-ResNet 50 相同的 top-1 准确度,但执行时间为 80%。在类似的 FLOPs 的情况下,我们的模型优于 SASA 0.35%-0.8%,与其他 Baselines 相比优势更大。

    对于SANACmix、PVT-ACmix和Swin-ACmix,本文模型实现了持续改进。SAN-acmix 15 以 80% 的 FLOPs 优于 SAN 19。PVT-ACmix-T 表现出与 PVT-Large 相当的性能,只有 40% 的 FLOPs。Swin-ACmix-S 的准确度比 Swin-B 高,FLOP 为 60%。

    5.2 语义分割和目标检测

    作者评估了模型在 ADE20K 数据集上的有效性,并展示了两种分割方法 Semantic-FPN 和 UpperNet 的结果。ImageNet-1K 上的预训练主干。事实证明

    ACmix 在所有设置下都实现了提升。

    作者还对 COCO 进行了实验。

    表 3 和表 4 显示了基于 resnet 的模型和基于 Transformer 的模型在不同头部检测场景下的结果,包括 RetinaNet、Mask R-CNN 和 Cascade Mask R-CNN。可以观察到,ACmix 在具有相似参数或 FLOP 的情况下始终优于 Baseline。这进一步验证了 ACmix 在将其转移到下游任务时的有效性。

    5.3 消融实验

    1、合并两条路径的输出

    探索卷积和自注意力输出的不同组合对模型性能的影响。作者使用了多种组合方法进行实验,结果总结在表6中。通过用传统的3×3卷积替换window attention,我们还展示了只走一条路径的模型的性能,Swin-T with self -attention 和 Conv-Swin-T 与卷积。正如所观察到的,卷积和自注意力模块的组合始终优于使用单一路径的模型。固定所有算子的卷积和自注意力的比率也会导致性能下降。相比之下,使用学习参数为 ACmix 带来了更高的灵活性,

    2、组卷积核

    作者还对组卷积核的选择进行了消融实验,在表 7 中通过经验证明了每种自适应的有效性,以及它对实际推理速度的影响。用组卷积代替张量位移大大提高了推理速度。此外,使用可学习的卷积核和精心设计的初始化增强了模型的灵活性并有助于最终的性能。

    5.5偏向不同路径

    还值得注意的是,ACmix 引入了两个可学习的标量,以组合来自两个路径的输出。这导致了模块的一个副产品,其中 sum 实际上反映了模型对不同深度的卷积或自注意力的偏差。

    这里进行了并行实验,图 5 显示了 SAN-ACmix 模型和 Swin-ACmix 模型中不同层的学习参数 。左图和中图分别显示了自注意力和卷积路径率的趋势。实验中的速率变化相对较小,尤其是当层更深时。

    这一观察表明,深度模型对不同的设计模式具有稳定的偏好。右图中显示了更明显的趋势,其中明确表示了两条路径之间的比率。看得见:

    在 Transformer 模型的早期阶段,卷积可以是一个很好的特征提取器。

    在网络的中间阶段,模型倾向于使用两条路径的混合,对卷积的偏差越来越大。

    在最后阶段,self-attention 表现出比卷积更大的优势。这也与之前作品的设计模式一致,即在最后阶段使用 self-attention 代替原来的 3×3 卷积,而早期的卷积被证明对视觉转换器更有效。

    通过分析sum的变化,发现在深度模型的不同阶段,对卷积和self-attention有不同的偏向。

    参考

    [1].关于self-attention和卷积的整合

    本文来自:公众号【集智树通】作者:ChaucerG

    来自icons8的Thierry Fousse的插图

    -结束-

    扫码观看!

    本周新!

    关于我的“门”

    江门是一家专注于发现、加速和投资科技驱动型创业公司的新型风险投资机构。涵盖江门创新服务、江门科技社区和江门创投基金。

    江门成立于2015年底,创始团队由微软创投中国原创始团队打造。为微软精选并深度孵化了126家创新科技创业公司。

    如果您是科技领域的初创公司,您不仅想获得投资神经网络权值直接确定法,还想获得一系列持续的、有价值的投后服务,欢迎给我发送或推荐项目给“门”:

    bp@thejiangmen.com

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 本文-Attention学习方法

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论