最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 【干货】正则化就是结构风险最小化策略时间送达

    重磅干货,第一时间发货

    1、简介

    正则化是结构风险最小化策略的实现,即在经验风险最小化的情况下增加一个正则化项或惩罚项。

    正则化技术可避免在参数多于输入数据的网络中过度拟合。正则化通过避免完美拟合数据样本的训练系数来帮助算法的泛化。为了防止过拟合,增加训练样本是一个很好的解决方案。此外,还可以使用数据增强、L1 正则化、L2 正则化、Dropout、DropConnect 和早期停止方法等。

    2、数据增强

    数据增强是提高算法性能和满足深度学习模型对大量数据的需求的重要工具。数据增强通过向训练数据添加转换或扰动来人为地增强训练数据集。数据增强技术,例如水平或垂直翻转图像、裁剪、颜色转换、缩放和旋转,通常用于视觉表示和图像分类。(以下推文会讲解并认真练习)

    3、L2 正则化

    L2 正则化是在损失函数之后添加一个 L2 正则化项。公式为:

    其中L0是原始损失函数,后半部分是L2正则化项。L2 正则化项是权重的平方和除以训练集中的样本大小

    n,λ∈R为引入的正则化项系数,用于调整正则化项与原始损失值L0的比例。系数为1/2时,求导时方便减小。

    推导 L2 正则化公式后,我们得到:

    将上式代入梯度下降公式,L2正则化后权重w的更新为:

    不使用L2正则化时,权重w前面的系数为1。使用L2正则化后,权重w前面的系数为1-ηλ/n,其中η、λ、n为正数,所以即权重 w 的系数是常数。小于1,所以可以看出L2正则化是用来惩罚特征的权重w,学术上称为权重衰减。

    L2 正则化确实可以使权重更小。之所以可以用来防止过拟合,是因为权重越小,说明神经网络的复杂度越低,网络参数越小,说明模型比较简单。简单的模型不太可能导致过拟合。

    4、 L1 正则化

    L1正则化时神经网络权值直接确定法,在原损失函数后增加一个L1正则化项,即权重w的绝对值之和除以n,L1正则化公式为:

    当权重为正时,更新后的权重变小;当权重为负时,更新后的权重变大。因此,L1正则化的目的是使权重趋于0,使神经网络的权重尽可能小,相当于降低网络复杂度,防止过拟合。

    在实际应用中,一般使用L2正则化。因为L1范式会生成稀疏解,并且具有一定的特征选择能力,对于求解高维特征空间更有用;L2范式主要是为了防止过拟合。

    5、 L1 和 L2 正则化比较

    L1和L2正则化是最常用的正则化方法。L1正则化在目标函数中加入一个正则化项,以减少参数绝对值之和;而在 L2 正则化中,添加正则化项的目的是减少参数的平方和。根据前人的研究,L1正则化中的很多参数向量都是稀疏向量,因为很多模型导致参数趋近于0,所以常用于特征选择设置。机器学习中最常用的正则化方法是对权重施加 L2 范数约束。

    在线性回归中,Lasso回归使用L1正则化,Ridge回归(岭回归)使用L2正则化,ElasticNet同时使用L1正则化和L2正则化。

    5.1、 为什么 L1 和 L2 正则化可以防止过拟合?

    在拟合过程中,我们通常倾向于使权重尽可能小,最后构建一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,可以适应不同的数据集,也在一定程度上避免了过拟合的现象。可以想象,对于一个线性回归方程,如果参数很大,那么只要数据稍微移动一下,就会对结果产生很大的影响;但是如果参数足够小,数据就不会移动一点点。什么影响,就是抗干扰能力强。

    L1&L2 正则化将使模型更喜欢较小的权重。较小的权重意味着较低的模型复杂度;添加 L1 & L2 正则化相当于在模型之前添加某种先验,限制参数的分布,从而降低模型复杂度。模型复杂度的降低意味着模型对噪声和异常点的抗干扰能力增强,从而提高了模型的泛化能力。——直观上,对训练数据的拟合恰到好处,不会过拟合训练数据(如异常值、噪声)。

    5.2、 为什么 L1 使权重变得稀疏?

    使用 0 范数对参数进行正则化也可以使大部分参数为 0 以实现稀疏,但 0 范数的最优解特性不如 1 范数,因此通常使用 1 范数来实现稀疏。

    L1 和 L2 的相似之处:

    两者都可以限制模型的学习能力,即通过限制参数的规模,模型偏爱权重较小的目标函数,以防止过拟合。

    L1和L2的区别:

    L1正则化可以生成更稀疏的权重矩阵,可以用于特征选择,同时在一定程度上防止过拟合;

    L2正则化主要用于防止模型过拟合。L1正则化适用于特征之间存在相关性的情况;

    L2 正则化适用于特征之间没有相关性的情况。与L2相比,L1可以实现更稀疏的权重,这是由自己的计算方法决定的。L1是每个元素的绝对值之和,L2是每个元素的平方和的根。,当惩罚不同的参数时,不管参数大小,L1对它们的惩罚值是相同的,导致那些参数大小和惩罚值相等的参数,一减少就变成0,而惩罚值L2对于参数是根据参数本身的大小而变化的。参数越小,惩罚值越小,参数越大,惩罚值越大,所以所有参数最终都接近0,但不等于0。

    6、 辍学

    Bagging 是一种通过组合多个模型来减少泛化误差的技术。主要方法是分别训练几个不同的模型,然后让所有模型对测试样本的输出进行投票。Dropout 可以被认为是一种集成了大量深度神经网络的 bagging 方法,因此它提供了一种廉价的 bagging 集成逼近,能够用大量数据训练和评估神经网络。

    Dropout是指暂时丢弃一部分神经元及其连接。随机丢弃神经元可防止过度拟合,同时以指数方式有效地连接不同的网络架构。神经元以 1 – p 的概率被丢弃,从而减少了神经元之间的协同适应。隐藏层通常以 0.5 的概率丢弃神经元。所有 2^n 个 dropout 神经元的样本均值使用全网络近似(每个节点的输出权重为 p)。Dropout 通过避免训练数据上的训练节点,显着减少了过拟合,同时提高了算法的学习速度。

    7、 断开连接

    Drop Connect 是另一种减少算法过拟合的正则化策略,是 Dropout 的推广。在 Drop Connect 的过程中,需要将随机选择的网络架构权重子集设置为零,而不是在 Dropout 中为每一层设置随机选择的激活函数子集为零。Drop Connect 和 Dropout 都可以实现有限的泛化性能,因为每个单元都接收来自过去层单元的随机子集的输入。Drop Connect 与 Dropout 相似之处在于它涉及在模型中引入稀疏性,不同之处在于它在权重中引入稀疏性,而不是在层的输出向量中引入稀疏性。

    8、 最大约束范式

    最大约束范式是约束权重,限制权重的大小,限制每个神经元的权重的绝对值。在实践中,所有参数都正常更新,然后限制每个神经元的权向量满足关系:

    其中c∈R通常为3或4。最大约束范式的特点是权重的更新受到约束。即使学习率很大,也不会因为网络参数的扩大而造成过拟合。

    9、 基于优化的正则化:提前停止

    提前停止可以限制模型最小化成本函数所需的训练迭代次数。早期停止通常用于防止在训练期间过度表达模型的泛化性能不佳。如果迭代次数太少,算法容易欠拟合(方差小,偏差大),如果迭代次数太多,算法容易过拟合(方差大,偏差小)。早停法通过确定迭代次数来解决这个问题,不需要手动设置具体值。

    10、 基于函数模型的正则化

    10.1、参数共享

    在同一网络的多个部分重用某些可训练参数称为权重共享。当两个模型执行足够相似的分类任务并且具有相似的输入/输出分布时,模型参数之间应该存在一些相关性。此时认为模型参数具有一定的复用性。应用这种正则化方法可以使模型比使用单独训练参数的模型更简单。

    目前,作为正则化方法的权重共享模型之一是卷积神经网络,它共享图像中多个位置的权重参数,以执行关于平移不变性和特征提取局部性的先验知识。编码。此外,权重共享有效地减少了卷积神经网络中需要学习的权重的参数数量,让网络在不断增加训练数据的同时扩展到更深的深度。另一个使用权重共享的模型示例是自动编码器,它与相应的 sigmoid 层参数共享编码部分来构建网络。

    10.2、 噪声标签

    向模型的输入部分添加噪声是数据集扩充的主要方式。将噪声添加到模型的隐藏单元会导致常用的噪声模型;噪声模型的一个示例是递归神经网络,它通过向模型权重添加噪声来转换为对权重进行贝叶斯推理的随机实现。通过贝叶斯推理的学习过程表达了权重的不确定性,是一种使用的随机方法,此外,随机池化通过向模型的各个部分注入随机噪声来赋予模型随机性神经网络权值直接确定法,从而实现确定性模型随机泛化。向输出目标添加噪声的一个重要应用是标签平滑。

    10.3、 标签平滑

    标签平滑通过将 softmax 函数的显式分类结果替换为输出数量的比率来正则化模型。混合。令 x 为样本,y 为标签,我们可以从训练数据 (xi,yi) 和 (xj,yj) 中创建虚拟训练样本,以增强数据集的鲁棒性:

    权重λ是一个随机数,线性混合方法是简单的点对点混合。

    10.4、 多任务学习

    多任务学习是一种更复杂的正则化方法,它通过组合来自多个任务的示例来提高网络泛化能力。它可以与半监督学习相结合,以便在辅助任务上使用未标记的数据。元学习中也使用了类似的任务共享概念,即顺序学习同一领域的多个任务,并使用先前获得的知识作为新任务的偏差;而在迁移学习中,来自一个领域的知识被迁移。到另一个领域,从而实现多任务学习。

    下载1:OpenCV-Contrib扩展模块中文版教程

    下载2:Python视觉实战项目52讲

    下载3:OpenCV实战项目20讲

    交流群

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 【干货】正则化就是结构风险最小化策略时间送达

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论