最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 跨越两个维度的数据规范化参数初始化深度神经网络(组图)

    深度神经网络是计算机视觉和语音识别的关键突破。在过去的十年中,深度网络使机器能够以人类几乎不可能的准确度识别图像、语音,甚至玩游戏。为了达到高精度,需要大量的数据和计算能力来训练这些网络。然而,尽管涉及计算复杂性,但我们可以遵循某些指导方针来减少训练时间并提高模型准确性。在本文中神经网络 参数初始化,我们将介绍其中一些技术。

    数据预处理

    数据预处理的重要性只能通过您的神经网络与用于训练它的输入数据一样好这一事实来强调。如果缺少重要的数据输入,神经网络可能无法达到预期的准确性。另一方面,如果数据没有经过预处理,则会影响神经网络的准确性和性能。

    均值减法(零中心化)

    这是从每个数据点中减去平均值的过程,使其以零为中心。考虑神经元(单元)的输入要么全部为正,要么全部为负的情况。在这种情况下,在反向传播期间计算的梯度将为正或负(与输入符号相同)。因此,参数更新仅限于特定方向,进而导致收敛效率低下。

    平均减法(数据零居中)

    数据归一化

    归一化是指对数据进行归一化处理,使其在所有维度上都具有相同的尺度。通常的方法是将每个维度的数据除以标准差。然而,只有当你有理由相信不同的输入特征有不同的尺度时才有意义,但它们对学习算法同样重要。

    跨两个维度的数据规范化

    参数初始化

    深度神经网络对数百万或数十亿个参数并不陌生。这些参数的初始化方式决定了我们的学习算法收敛的速度以及最终的准确性。最简单的方法是将它们全部初始化为零。但是,如果我们将层的权重初始化为全零,则计算的梯度对于层中的每个单元都是相同的,因此对所有单元的权重更新将是相同的。所以这一层与单个逻辑回归单元一样好。

    当然,我们可以通过使用一些较小的随机数初始化权重来做得更好。不是吗?所以,让我们用一个 10 层的深度神经网络来分析这个假设的结果,每个神经网络由 500 个单元组成,并使用一个 tanh 激活函数。[这只是关于 tanh 激活的说明,然后继续]。

    Tanh 激活函数

    这是 tanh 激活函数的图。在此激活过程中,需要牢记以下几点:

    首先,我们从具有零均值和 1 e-2 标准差的标准高斯初始化所有权重。

    不幸的是,这只适用于小型网络。为了查看它为更深层次的网络带来的问题,可以使用各种参数生成图表。当我们深入网络时,这些图描绘了每一层的平均值、标准差和激活。

    均值、标准差和跨层激活

    请注意,平均值始终在零附近,这是显而易见的,因为我们使用了以零为中心的非线性。然而,随着我们深入网络,标准偏差逐渐缩小,直到它崩溃到零。这也是显而易见的,因为我们在每一层将输入与非常小的权重相乘。因此,计算出的梯度也非常小神经网络 参数初始化,因此对权重的更新可以忽略不计。

    那太棒了!!!接下来让我们尝试用非常大的数字初始化权重。为此,让我们从均值为零且标准差为 1 的标准高斯函数中获取权重(而不是 0.01).

    下图显示了所有层的平均值、标准差和激活。

    均值、标准差和跨层激活

    请注意,每一层的激活值要么接近 1,要么接近 -1,因为我们将输入与非常大的权重相乘,然后将其输入到 tanh 非线性中(压缩到 +1 到 -1 的范围)。因此,计算出的梯度也非常接近于零,因为在这些方案中 tanh 饱和(导数为零)。最后,权重的更新几乎可以忽略不计。

    实际上,Xavier 初始化是用来初始化所有层的权重的。Xavier 初始化背后的动机是以这样一种方式初始化权重,使它们不会最终处于 tanh 激活的饱和状态,即初始化值不会太小或太大。为了实现这一点,我们根据输入的数量进行缩放,同时从标准高斯随机采样。

    但是,这很好地假设 tanh 用于激活。对于 ReLu 等其他激活函数,这肯定会坏掉。毫无疑问,正确的初始化仍然是一个活跃的研究领域。

    批量标准化

    这与我们目前讨论的内容有些相关。请记住,我们在将输入馈送到网络之前对其进行规范化。这样做的一个原因是考虑到由移位协方差引起的网络不稳定性。

    它解释了为什么即使在学习了从某些输入到输出的映射之后,我们仍需要重新训练学习算法,以在输入的数据分布不断变化的情况下学习从相同输入到输出的映射。

    然而,这个问题并没有解决,因为数据分布也在更深层次上发生了变化。每一层的激活可能会导致不同的数据分布。因此,为了提高深度神经网络的稳定性,我们需要通过减去均值并除以标准差来对馈送到每一层的数据进行归一化。有一篇文章深入解释了这一点。

    正则化

    训练深度神经网络最常见的问题之一是过度拟合。当您的网络在训练数据上表现良好但在测试数据上表现不佳时,就会发现过度拟合。这是因为我们的学习算法试图拟合输入中的每个数据点,即使它们代表一些随机采样的噪声,如下图所示。

    正则化有助于避免过度拟合惩罚网络的权重。为了进一步解释,考虑在神经网络上定义的分类任务的损失函数如下:

    损失函数

    请注意,正则化参数 (lambda) 用于控制权重对最终目标函数的影响。因此,当 lambda 取非常大的值时,网络的权重应该接近于零,以最小化目标函数。但是当我们让权重崩溃到零时,我们抵消了层中许多单元的影响,因此网络并不比逻辑回归单元少的单个线性分类器好。出乎意料的是,这使我们处于一种称为欠拟合的状态,这并不比过拟合好多少。显然,我们必须非常小心地选择 lambda 的值,以便最终我们的模型属于平衡类别(图中的第三个图)。

    辍学正则化

    除了我们讨论的内容之外,还有一种更强大的技术可以减少深度神经网络中的过度拟合,称为 Dropout 正则化。

    关键思想是在训练网络时随机丢弃单元,以便我们在每次迭代时使用更小的神经网络。丢弃单元与在前向或反向传播期间忽略那些相同的单元相同。从某种意义上说,这会阻止网络适应某些特定的特征集。

    在每次迭代中,我们从网络中随机删除一些单元。因此,我们强制每个单元不依赖(不给予高权重)上一层的任何特定单元集,因为它们中的任何一个都可能随机消失。这种扩展权重的方式最终会缩小单个单元级别的权重,类似于我们在 L2 正则化中讨论的内容。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 跨越两个维度的数据规范化参数初始化深度神经网络(组图)

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论