最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 谷歌大脑的这项反直觉,在SGD中用激活函数都一样?

    深度神经网络以其强大的非线性能力而自豪,它们可以适应复杂的数据,例如图像和语音。但最近 Google Brain 的研究人员表明,只要网络足够宽,即使没有激活函数,线性化网络也可以产生与原始网络相似的预测和准确性。这有点违反直觉,你现在是在告诉我,像 Wide ResNet 这样的强大模型在 SGD 中有或没有激活函数时是一样的吗?

    基于深度神经网络的机器学习模型在许多任务上取得了前所未有的性能。这些模型通常被视为难以进行理论分析的复杂系统。此外,在训练期间描述这些模型的梯度动态非常具有挑战性,因为高维非凸损失表面通常在优化过程中占主导地位。

    正如物理学中常见的那样,探索此类系统的理想极限可以帮助解决这些难题。对于神经网络,理想的限制之一是无限宽度,即全连接层中隐藏单元的数量,或卷积层中无限数量的通道。在这个限制下,网络初始化的输出来自一个高斯过程(GP);此外,经过平方损失的精确贝叶斯训练后,网络输出仍然由 GP 控制。除了理论上更简单之外,无限宽度的限制具有实际意义,因为研究人员发现更广泛的网络具有更好的泛化性。

    Google Brain 的这项研究探索了梯度下降过程中宽神经网络的学习动态,他们发现这个动态过程的权重空间描述可以非常简单:随着宽度变大,神经网络可以通过其参数进行初始化。被 的一阶泰勒展开有效地取代。这样我们就得到了一个线性模型神经网络 参数初始化,其梯度下降过程变得易于分析。虽然线性化仅在无限宽度约束下才准确,即使宽度有限,研究人员发现原始网络的预测与线性化版本的预测非常一致。这种一致性在不同的架构、优化方法和损失函数中持续存在。

    对于平方损失,精确的学习动态允许存在封闭形式的解决方案,这使我们能够根据 GP 来表征预测分布的演变。这个结果可以看作是“先采样然后优化”后验采样对深度神经网络训练的扩展。实验模拟证实,对于具有不同随机初始化的有限宽度模型集合,实验结果可以准确地模拟其预测的变化。

    论文的主要贡献:

    作者表明,这项研究工作最重要的贡献是表明参数空间中的动态更新过程等价于模型的训练动力学,并且模型是对所有参数(权重和偏差)的模拟网络。镜头变换。无论选择哪种损失函数,这个结果都成立。特别是在使用平方损失时,动态过程允许使用封闭形式的解决方案作为训练时间的函数。所以像Wide ResNet这样强大的非线性模型,只要够宽,就可以直接用线性仿射变换模拟,不需要激活函数~

    这些理论可能看起来过于简单,无法在实践中应用于神经网络。尽管如此,作者仍然通过实验研究该理论在有限宽度中的适用性,发现有限宽度线性网络可以表征各种条件下的学习动态和后验函数分布,包括表征实践中常用的 Wide ResNet。

    论文:任意深度的宽神经网络在梯度下降下演变为线性模型

    论文链接:

    摘要:深度学习研究的一个长期目标是准确描述训练和泛化过程。然而,神经网络极其复杂的损失函数曲面使得动态过程的理论分析变得扑朔迷离。Google Brain 的这项研究表明,宽神经网络的学习动态得到了极大的简化;对于有限宽度的神经网络,它们由线性模型控制,该模型由接近初始参数的一阶泰勒展开式定义。此外,具有平方损失的宽神经网络的基于梯度的训练反映了宽贝叶斯神经网络和高斯过程之间的对应关系,高斯过程从具有特定组成核的高斯生成测试集预测。过程。尽管这些理论结果仅适用于无限宽度的神经网络,但研究人员发现一些实验证据表明,即使对于有限宽度的现实世界网络,原始网络的预测和线性版本的预测与理论一致。该理论在不同的架构、优化方法和损失函数中都是稳健的。

    理论结果

    线性化网络

    在实验部分,本文表明线性化网络可以获得与原始深度非线性网络相同的输出结果和精度。这部分简要介绍了什么是线性化网络,更多的理论分析可以在原论文的第二章找到。对于线性化网络的训练动力学神经网络 参数初始化,首先我们需要用一阶泰勒展开替换神经网络的输出:

    其中 ω_t ≡ θ_t – θ_0 表示模型参数从初始值到最终值的变化。表达式左侧的 f_t (6) 是两项之和:第一项是网络的初始输出,根据泰勒公式在训练过程中不变;第二项捕获初始训练过程中的值变化过程。如果我们使用线性函数,那么梯度流的动态过程可以表示为:

    由于 f_0 相对于 θ ∇f_0 的梯度在整个训练过程中是恒定的,因此这些动态相对简单。常微分方程在使用 MSE 损失函数时具有闭式解:

    神经网络 参数初始化_神经网络的初始loss_神经网络的正则化

    因此,即使网络没有经过训练,我们也可以获得线性化神经网络随时间的演变。我们只需要计算正切核函数Θ_0 hat和初始状态的输出f_0,根据方程11、12和9计算模型输出和权重的动态变化过程。重要的是,值因此计算出的值与对应的非线性深度网络迭代学习的值非常相似。

    实验

    本研究进行实验以证明线性模型可以很好地捕捉宽神经网络的训练动态。实验包括全连接、卷积和宽 ResNet 架构(梯度下降的学习率非常小),使用全批量和小批量梯度下降来实现连续时间近似。实验考虑了 CIFAR10 数据集上的二元分类(马和飞机),MNIST 和 CIFAR-10 数据集上的十个类别。在使用 MSE 损失时,研究人员将二元分类任务视为回归任务,一个类的回归值为 +1,另一类的回归值为 -1。

    原始网络和线性网络之间的训练动态比较

    图5、6、7比较了线性网络和实际网络的训练动态。在所有示例中,两者之间有很好的一致性。

    图 4 显示,当使用 CIFAR-10 数据集上的交叉熵损失执行分类任务时,线性模型可以很好地描述学习动态。图 6 使用交叉熵损失测试 MNIST 分类任务,并使用动量方法优化器进行训练。图 5 和图 7 比较了线性网络和原始网络在直接训练时的训练动态。

    图 4:在模型上执行全批次梯度下降与线性版本上的分析动力学相似,无论是网络输出还是单个权重。

    图 5:卷积网络及其线性版本在使用带有动量优化器的全批次梯度下降时表现相似。

    图 6:在具有动量和交叉熵损失的 SGD 的 MNIST 数据集上训练时,神经网络及其线性版本的性能相似。

    图 7 比较了使用 MSE 损失训练的 Wide ResNet 和使用动量训练的 SGD 的线性和真实动态。研究人员稍微修改了图 7 中的残差模块结构,以保持每层的通道数固定(本例中的通道数为 1024),其他与原始实现一致。

    图 7:Wide ResNet 及其线性化版本的表现相似,都在 CIFAR-10 数据集上进行了 SGD 和 MSE 损失的动量训练。

    图 8 将平台均方根误差(平台 RMSE)绘制为一系列模型的宽度和数据集大小的函数。总体而言,误差随着宽度的增加而减小。全连接网络的误差减少约为 1/N,而卷积和 WRN 架构的误差减少更加模糊。

    图 8:误差取决于深度和数据集大小。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 谷歌大脑的这项反直觉,在SGD中用激活函数都一样?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论