最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • :一种简单高效的训练单个统一模型命名为PolyViT

    变形金刚真的是万能的。

    Transformer 是一系列灵活的神经端到端模型,最初是为自然语言处理任务而设计的。最近,Transformers 已应用于一系列感知任务,例如图像分类、视频和音频。尽管最近在不同的领域和任务中取得了进展,但当前的 SOTA 方法只能为手头的每个任务训练具有不同参数的单个模型。

    最近,来自谷歌研究院、剑桥大学和艾伦图灵研究所的几位研究人员在他们的论文《PolyViT: Co-training Vision Transformers on Images, Videos and Audio》中提出了一种简单有效的训练单一统一模型的方法。方法,他们将模型命名为 PolyViT,该模型实现了具有竞争力的或 SOTA 的图像、视频和音频分类结果。

    通过设计计算机图形学扫描线算法步骤,我们不仅为不同的模态使用通用架构,而且还跨任务和模态共享模型参数,从而实现潜在的协同作用。从技术上讲,他们的方法受到以下事实的启发:转换器是一种通用架构,能够在任何可以标记化的模态上运行;直观地说,由于人类感知本质上是多模态的,并且由单个大脑执行。

    论文地址:

    下面的图 1 是 PolyViT 结构的概述。

    研究人员使用的主要方法是协同训练,即同时在多个分类任务(可能跨多个模态)上训练单个模型。他们考虑了不同的设置,同时解决了多达 9 种不同的图像、视频和音频分类任务。如上图 1 所示,PolyViT 模型能够执行多项任务,但对于给定的输入,一次只能执行一项任务。虽然在计算机视觉和自然语言领域已经探索了类似的方法,但尚不清楚以前的工作是否考虑了多种模式以及是否使用这种方法实现了 SOTA 结果。

    我们的联合培训设置简单实用。它不需要对协同训练数据集的每个组合进行超参数调整,因为我们可以轻松调整标准单任务训练的设置。此外,协同训练不会增加整体训练成本,因为训练步骤的总数不超过每个单任务基线的总和。

    在图像、音频和视频方面共同培训 ViT

    PolyViT 架构

    PolyViT 是一种单一架构,能够处理来自多种模式的输入。如上图 1 所示,研究人员在不同的任务和模态中共享一个 Transformer 编码器,使得参数随着任务的数量线性减少。请注意,具有 L 层的 PolyViT 在处理图像时表现得像 L 层 ViT,在处理音频时表现得像 L 层 AST,在处理视频时表现得像 L 层未分解 ViViT。尽管 PolyViT 能够处理多种模态,但它只能在前向传递的情况下基于一种模态执行一项任务。

    PolyViT 部署了一个特定于模态的类令牌计算机图形学扫描线算法步骤,即

    , 输入嵌入算子

    和位置嵌入

    . 这允许网络对特定于模态的信息进行编码,而这些信息又可以被后续共享的转换器骨干网使用。

    为了在增加模型容量的同时实现大量任务和模态的协同训练,研究人员可以选择合并 L_adapt ≥ 0 模态特定的变换层(它们表示模态适配器层),它们在标记化后直接应用。在这种情况下,L_=shared = L – L_adapt 层在所有模式和任务之间共享。

    协同训练过程

    在与随机梯度下降 (SGD) 共同训练的所有任务中,我们同时优化所有 PolyViT 模型参数 θ。因此,在决定如何构建训练批次、计算梯度以更新模型参数以及使用哪些训练超参数时,有许多设计选择。

    在所有情况下,研究人员都使用来自单个任务的示例来构建他们自己的训练小批量。这种设计选择允许他们评估梯度和更新参数,同时使用与传统单任务基线相同的训练超参数(例如学习率、批量大小和动量)。这样,与单任务基线相比,研究人员可以在无需任何额外超参数的情况下对多个任务进行协同训练,使协同训练在实践中更容易执行,并减少执行大规模超参数扫描(sweep)的需要,以实现有竞争力的准确性。

    在协同训练期间,对于每个 SGD 步骤,研究人员对任务(或数据集)进行采样,然后从该任务中采样一个小批量,评估梯度并随后执行参数更新。重要的考虑因素是任务的采样顺序以及梯度是否在不同的小批量和任务上累积。研究人员在下面的图 2 中描述了几个任务抽样计划,包括以下内容:

    实验

    研究人员同时对 PolyViT 进行了三种模式的九种不同分类任务的训练:图像、音频和视频。对于图像分类协同训练,他们使用了 ImageNet-1K、CIFAR-10/100、Oxford-IIIT Pets 和 RESISC45 数据集;对于视频任务,他们使用 Kinetics 400 和 Moments in Time 数据集;对于音频任务,他们使用了 AudioSet 和 VGGSound 数据集。

    下面的表 6 显示了具体的实验设置:

    下面的表 1 显示了不同任务抽样计划对不同模式和任务的协同训练性能的影响,其中最高精度以粗体显示,第二高精度以下划线表示。其中,“Task-by-task”抽样计划表现不佳,仅在一项任务上取得了良好的表现,这是由灾难性遗忘引起的。

    “累积”采样计划需要跨所有任务的单一学习率,因为跨所有任务的累积梯度用于执行参数更新。因此,该方案仅在图像数据集上表现良好。

    “交替”、“均匀”和“加权”采样计划表现最好,表明特定任务的学习率和不同任务的梯度更新之间的转换对于准确性至关重要。

    与 PolyViT 共同培训

    下面的表 2 显示了用于解决图像、音频和视频三种模式的 9 种不同任务的模型训练方法,包括 ViT-Im21K 线性探针、单任务基线和 PolyViT 以及本文的变体(分别为 PolyViT)。L_adapt = 0 和 PolyViT Ladapt = L/2)。

    结果表明,在单一模态上训练的 PolyViT 在 9 个数据集中的 7 个上实现了 SOTA 性能,其余 2 个数据集的准确率差异可以忽略不计,不超过 0.3%。此外,参数总数比单个任务基线少 2/3。同时,多模态PolyViT还以大大减少的参数实现了具有竞争力的性能。

    使用线性探针评估学习的表示

    我们通过简单地为新任务添加和训练新的线性头来评估 PolyViT 学习的特征表示。下面的表 3 显示了在多种模态上训练的 PolyViT 如何学习跨模态特征表示,这些特征表示“在图像、音频和视频三种模态的 11 项线性评估任务中表现良好”。同时,表 3 还显示了多模态的协同训练如何有利于学习可用于多个下游任务的稳健、可转移的特征表示。

    使用单模态协同训练实现 SOTA 性能

    受上表 2 中单模态协同训练性能的启发,我们使用该方法对音频和视频分类任务进行大规模协同训练实验。下面的表 4 和表 5 显示,他们在使用明显更少的参数的情况下取得了 SOTA 结果。

    如下表 4 所示,对于音频分类,我们将 PolyViT 与当前的 SOTA 方法 MBT(audio-only) 和相关变体 MBT:AS-500k→VGGSound 和 MBT:VGGSound→AS-500k 相结合。结果表明,PolyViT 在两个数据集上都优于 SOTA 方法,同时使用 MBT 的大约一半参数(仅音频)。此外,PolyViT 在较小的数据集 VGGSound 上的 Top 1 准确度提高了 2.8%。

    对于视频分类,我们在 Kinetics-400、Kinetics-600 和 Moments in Time 数据集上共同训练具有较小小管尺寸的 PolyViT-Large 模型,并与当前 SOTA 模型共同训练 PolyViT-Large 模型ViViT(使用相同的初始化、主干和令牌数量)进行了比较。结果如下表 5 所示,表明 PolyViT 在所有三个数据集上都优于 ViViT。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » :一种简单高效的训练单个统一模型命名为PolyViT

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论