最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 【每日一题】回归诊断的4种常见问题!

    点击上方的“熊俱乐部”,发现更多精彩。

    r语言 回归残值图_用r语言做多元线性回归_r语言逻辑回归案例

    6.7 回归诊断

    建立回归模型后,需要对模型进行回归诊断。回归诊断对于模型来说就像“看病”。如果模型出现重大问题,那么可以通过诊断来寻找线索。回归诊断主要关注异方差性、强影响点、多重共线性和正态性四个方面。

    6.7.1 异方差

    线性回归模型假设随机误差的方差相同。如果不满足这个假设,就会出现异方差问题。当模型具有异方差性时,虽然此时仍能得到无偏的参数估计结果,但可能存在以下问题。

    (1)参数显着性检验失败;

    (2)回归方程的应用效果并不理想;

    如何诊断异方差?通常,通过绘制残差图来进行分析。具体而言,可以绘制以回归拟合值为横轴,残差为纵轴的散点图。如果散点图随着横轴的增加而出现发散或收敛,则认为存在异方差。如图6-4(a)所示,可以观察到残差的波动随着值的增加而增加,说明存在异方差问题。您可以尝试对 y 进行对数变换(图 6-4 (b))来修正它。

    r语言逻辑回归案例_用r语言做多元线性回归_r语言 回归残值图

    r语言逻辑回归案例_r语言 回归残值图_用r语言做多元线性回归

    图 6-4 残差和拟合值的散点图

    6.7.2个强影响点

    强影响点是指对回归模型的估计结果影响较大的点。如图 6-5 所示,该点可视为强影响点。强影响点的存在会使回归线与自身接近(如图中虚线所示),因此会对回归方程的估计结果产生较大的影响。当有强影响点时,可以在进行回归分析之前将这些点剔除。

    r语言 回归残值图_用r语言做多元线性回归_r语言逻辑回归案例

    图6-5 线性回归分析中的强影响点

    如何判断一个样本是否为强影响点?著名统计学家 D. R. Cook 建议根据样本的影响程度对样本进行评分。如果一个样本是一个强影响点,它将有更高的分数。这个分数后来被称为库克距离。库克距离是如何计算的?要判断一个样本的“影响”,可以在去除样本后重新估计回归方程。如果剔除样本前后回归估计值相差不大,则样本不是强影响点;如果差异巨大,则样本疑似强影响点。具体来说用r语言做多元线性回归,表示我们基于所有样本获得的系数估计值,并且是使用 获得的第 th 个样本的拟合值。对于给定的样本,如果要判断这个样本的影响,去掉样本后,重新估计回归系数,记为此时得到的模型对第th个样本的拟合值,然后计算烹饪距离方法如下。

    其中,.如果有少数样本库克距离特别大,则应考虑在重新拟合回归模型之前移除此类样本。一般认为,库克距离大于1的样本点被怀疑具有强影响点。

    用r语言做多元线性回归_r语言 回归残值图_r语言逻辑回归案例

    图 6-6 样本点的库克距离

    6.7.3 多重共线性

    多元线性回归模型有一个基本假设,即要求自变量是线性独立的,任何自变量都不能被其他自变量“替代”。如果存在一个不全为 0 的数,则自变量之间存在多重共线性。多重共线性对模型系数估计的影响以及如何诊断可以在书中找到。

    6.7.4 正态性

    在自变量值固定的情况下,因变量呈现正态分布,所以残差值也应该服从均值为0的正态分布。一般用“正态Q-Q图”看是否符合正态假设满足。正态QQ图的横轴是正态分布对应的概率值,纵轴是标准化残差对应的概率值。如果满足正态性假设,则图中的散点应落在 45 度角的直线上(如图 6-7 所示)。在实际问题中,正态分布特性很难完美满足。不满足正态假设的数据如何处理,请参考本书。

    6.8 变量选择

    6.8.1 逐步回归

    当回归模型中包含许多自变量时,模型的复杂度往往过高。此时很难得到稳定性高、可解释性强的回归结​​果,会影响模型的应用效果。回归模型中的变量选择是指自变量的选择。筛选的目标是为因变量选择解释力高的自变量,同时剔除解释力低的无关自变量。如果在变量选择过程中遗漏了一些重要变量,回归方程的拟合和预测效果会很差;如果考虑过多的自变量,会增加不必要的模型复杂度,降低模型的可靠性。解释性的。因此,在回归问题中选择合适的自变量是非常关键的。本节将介绍一种常用的自变量选择方法——逐步回归。

    在逐步回归中,模型一次添加或删除一个变量,直到达到某个停止标准。逐步回归方法主要包括三种变量选择模式:正向逐步回归、反向逐步回归和正向反向逐步回归。前向逐步回归一次添加一个自变量,直到添加一个变量不会提高模型性能;后向逐步回归从包含所有自变量的模型开始,一次删除一个自变量,直到模型性能不再提高 前向和后向逐步回归(通常称为逐步回归)结合了前向逐步回归和后向逐步回归的思想对模型没有贡献的自变量被剔除,这样自变量可以反复增删,直到得到最优模型。

    6.8.2 信息指南

    信息准则是评价模型在变量选择过程中的拟合程度和复杂度的综合指标。常用的信息准则有赤池信息准则和贝叶斯信息准则。

    Akaike 信息准则 (AIC) 是一种基于最大似然估计原理的更通用的模型选择准则。假设模型的似然函数为 ,维数为 ,则AIC定义为:

    其中,表示样本量。由于似然函数越大,估计器越好,模型复杂度越低(越小)模型的可解释性越好,所以最小化AIC的模型就是最优模型。

    一般来说,当模型中的变量更多,复杂度增加(增加)时,似然函数也增加,导致AIC更小。但是,当它太大时,似然函数的增长速度会减慢,导致 AIC 增加。因此,使用AIC准则可以提高模型拟合度(增加似然函数值),同时降低模型复杂度用r语言做多元线性回归,避免模型过拟合。

    贝叶斯信息准则(BIC)与AIC准则的设计原理相似,但BIC准则对模型复杂度的“惩罚”大于AIC。

    根据AIC和BIC的表达式可以看出,当数据量n较大时,BIC准则对模型复杂度有更强的“惩罚”,所以BIC准则下得到的最优模型为通常更简洁。

    6.9 模型实现

    6.9.1 R语言的基本函数

    lm() 函数可用于在 R 语言中实现线性回归。 lm() 函数包含两个主要参数:回归公式(formula)和数据集(data),格式为 myfit.其中,formula指的是要拟合的模型的形式,data是一个数据框,包含用于拟合模型的数据,函数返回的结果对象(myfit)存储在一个列表中,包含很多有关拟合模型的信息。回归公式有以下形式。

    左边的

    ~符号为因变量,右侧为自变量,每个自变量用+号分隔。下表中的符号可以用不同的方式修改这个表达式。

    r语言逻辑回归案例_用r语言做多元线性回归_r语言 回归残值图

    模型拟合完成后,将下表所示函数应用于lm()返回的对象,可以获得更多附加模型信息。

    r语言逻辑回归案例_r语言 回归残值图_用r语言做多元线性回归

    6.9.2 案例研究

    使用数据分析招聘薪酬数据集。首先,以工作工资为因变量,其他变量为自变量,在R中建立回归模型,进行模型诊断,模型选择,模型结果的解释和预测,请参考本书内容。

    6.10 总结

    回归分析是统计分析中最重要的思想之一。主要解释变量之间的相关性,广泛应用于实际业务场景中。

    本章我们使用数据分析职位招聘薪资数据集详细介绍线性回归分析的相关内容,包括模型形式、模型理解、回归参数的估计方法、模型评价与回归诊断、模型选择。最后,本章展示了如何在 R 中执行完整的线性回归分析,并对新的样本数据进行预测。

    r语言逻辑回归案例_r语言 回归残值图_用r语言做多元线性回归

    京东购买二维码

    r语言逻辑回归案例_用r语言做多元线性回归_r语言 回归残值图

    扫一扫二维码购买产品过往精彩回顾

    用r语言做多元线性回归_r语言逻辑回归案例_r语言 回归残值图

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 【每日一题】回归诊断的4种常见问题!

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论