最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 回归分析在R语言中的实现,我们将从更专业的角度对模型进行一些解读

    15个

    关于作者

    奥卡军

    个人博客:

    过去回顾:

    上一章介绍了。本章讨论回归分析在R语言中的实现。我们将从更专业的角度解释模型

    一元线性回归

    同样,我们仍然使用R中的自包含女性数据集来查看数据样式:

    线性回归方程相关系数r_矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么

    1.1数据探索

    首先,制作散点图检查数据分布:

    绘图(女性$身高,女性$体重

    xlab=“高度(英寸)”,ylab=“重量(磅)”)

    矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么_线性回归方程相关系数r

    可以看出,散射分布呈线性规律,这表明它适合构建线性回归方程

    1.2构建模型

    适合

    可以看出,R的线性回归非常简单,只需要一个简单的LM函数

    1.>3模型解释

    #查看模型

    摘要(fit)

    矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么_线性回归方程相关系数r

    首先,看看r平方:0.991,这表明该模型具有很好的解释能力,可以解释99%的方差,而F检验的p值:1.091e-14远小于<0.05,这表明该模型通过了F检验

    从截距项和系数来看,均通过了t检验,身高系数为正,说明随着身高的增长,体重也会增加,这符合客观事实

    得到回归方程:体重=-87.51667+3.45000*身高

    检查模型拟合效果:

    绘图(女性$身高,女性$体重

    xlab=“高度(英寸)”,ylab=“重量(磅)”)

    abline(配合)

    矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么_线性回归方程相关系数r

    回归诊断:

    Par(mfrow=c(2,k15)

    绘图(拟合)

    Par(mfrow=c(1,k16)

    矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么_线性回归方程相关系数r

    放大后,上面的图像可能不够清晰。让我们来解释一下:

    左上:剩余和装配图。理论上,分散点应该分散在水平线的两侧,但该图显然具有曲线关系,这表明我们的模型需要添加一个二次项(这也可以从分散图中看出)

    右上图:正泰Q-Q图用于检验因变量的正分布。如果分布服从正分布,则分散点应沿直线分布。此图显示满足正态性假设

    左下图:齐次平方差检验。如果满足方差,则分散的点随机分布在水平线周围。该图符合均匀平方差测试

    右下角:独立性测试,即一个样本是否会影响另一个样本,似乎不存在于我们的样本数据中

    1.>4模型修正

    添加二次输入模型:

    fit2总结(fit2)

    绘图(女性$身高,女性$体重

    xlab=“高度(英寸)”,ylab=“重量(磅)”)

    线条(女性$身高,已安装(安装)

    1.1@>

    得到r平方:0.9995,模型效果得到改善;拟合效果也得到了改善

    多重线性回归

    与一元回归相比,多元线性回归需要考虑更多的问题。我们仍然使用薪资数据集(数据文件见上一章)

    #导入数据

    数据集df头(df)

    1.4@>

    1.3@>1数据探索

    制作散点图矩阵,检查变量之间的关系

    图书馆(汽车)

    散点图矩阵(df,spread=F,smoother=loessLine,main=“散点图矩阵”)

    1.6@>

    可以看出,薪酬与其他三个变量存在明显的正线性相关关系。此外,年龄与公司年龄也有显著的正相关

    让我们看看变量之间的相关系数:

    cor(df)

    1.7@>

    1.3@>2构建模型

    适合

    1.3>3模型解释

    摘要(fit)

    线性回归方程相关系数r_线性回归中r是什么_矩阵的秩为r,那么ax=b至多有n-r个线性无关解

    可以看出,该模型的效果显著,通过了F检验,截距项和系数也通过了t检验

    1.3>4模型试验

    我们进一步测试该方程,以检查回归方程是否满足模型的先验条件以及模型的稳健性

    1.3@>4.1正态性、独立性、线性、齐次方差(使用car软件包)

    #正态性

    qqPlot(fit,labels=行名(df),id.method=’标识’

    模拟=真,main=“Q-Q图”)

    线性回归方程相关系数r_矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么

    可以看出,散布点分布在直线两侧,与虚线间隔没有明显偏差,表明方程满足正态性先验条件

    #独立性

    p值636接受原始假设,表明不存在自相关,误差项是独立的

    #线性度

    线性回归中r是什么_矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归方程相关系数r

    crPlots(拟合)

    矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么_线性回归方程相关系数r

    您可以看到满足了此条件

    #齐次方差

    p> 0.05,接受原始假设,误差方差保持不变

    1.3@>4.2多重共线性

    图书馆(汽车)

    vif(配合)

    #通常,sqrt(VIF)>2表示存在多重共线性

    sqrt(vif(fit))>2

    可以看出:age and companyn当将age引入方程时,方程具有多重共线性(二者的相关系数<0.87,如上所述)

    如果多重共线性只是一种预测,那么它就不是问题。但如果我们仍然需要解释每个预测变量,我们必须解决这个问题。最常用的方法是删除具有多重共线性的变量。另一种可用的方法是岭回归,它专门用于处理多重共线性问题

    1.3@>4.3个异常值

    离群值检验主要考虑模型的稳健性,是否存在离群值、强影响点和高杠杆值

    图书馆(汽车)

    影响图(fit,id.method=“identify”,main=“影响图”

    sub=“圆圈大小与库克距离成比例”)

    矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归方程相关系数r_线性回归中r是什么

    #纵坐标大于+2或小于-2的散布点可视为异常值

    #水平轴超过0.2或0.3的散布点具有高水平值

    #圆的大小与影响成正比,而圆较大的点可能是对模型参数估计不相称影响的强影响点

    1.3@>5模型评估

    1.3@>5.1 K重复交叉验证

    在k-fold交叉验证中,样本被划分为k个子样本。反过来,K 将1个子样本组合为训练集,另一个子样本作为保留集。这将获得K个预测方程,记录K个保留样本的预测性能结果,然后对其进行平均。[当n是观测总数,K是n时,此方法也称为jackknifing。]

    bootstrap包中的crossval()函数可以实现k-fold交叉验证

    #k-fold交叉验证R-square函数

    收缩率要求(自举)

    #定义函数

    θ。配合lsfit(x,y)

    }

    θ。预测cbind(1,x)%*%拟合$coef

    }

    #预测值矩阵

    x#预测值向量

    y型

    结果r2 r2cv cat(“原始R-square=,r2,“n”)

    cat(k,“折叠交叉验证R-square=”,r2cv,“n”)

    cat(“Change=”,r2-r2cv,“n”)

    }

    收缩率(配合)

    ²型R从0.896到0.876,变化不大

    变量的重要性

    谁在进入方程的变量中起着更大的作用

    方法1:

    zdf zfit coef(zfit)

    可以看出,三个变量之间的重要性差异不是很明显,年龄是最重要的

    方法2:

    #相对权重法

    重新加权R nvar rxx rxy svd evec ev delta

    #原始预测因子与新正交变量之间的相关性

    lambda lambdasq

    #Y在正交变量上的回归系数

    beta rsquare rawwgt导入lbls行名称(导入)列名称(导入)

    #绘图结果

    条形图(t(导入),名称。arg=磅,ylab=“%的R平方”

    xlab=“预测变量”,main=“预测变量的相对重要性”

    sub=粘贴(“R-Square=”,圆形(rsquare,digits=3))

    …)

    返回(导入)

    }

    #使用relweights()

    重磅(fit,col=“浅灰色”)

    矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么_线性回归方程相关系数r

    可以得出同样的结论:变量年龄小于公司年龄,教育程度对回归方程的影响较大

    1.3>6模型修正

    由于多重共线性的问题,我们修改了模型(如上所述,如果用于预测,可能不考虑多重共线性的问题)

    消除导致共线的变量

    综上所述,我们知道年龄和companyuAge高度相关,年龄对模型更重要,因此我们排除了CompanysuAge变量

    fit2汇总(fit2)

    线性回归方程相关系数r_矩阵的秩为r,那么ax=b至多有n-r个线性无关解_线性回归中r是什么

    可以看出,该公司被排除在外,该模式使用后效果仍然良好,R²从896到当前881,变化很小,效果很好;方程也通过了F检验和t检验

    1.3@>6.2岭回归

    要求(屋脊)

    适合。ridgesummary(适合屋脊)

    线性回归方程相关系数r_线性回归中r是什么_矩阵的秩为r,那么ax=b至多有n-r个线性无关解

    对于多元线性回归线性回归中r是什么线性回归中r是什么,当有许多指数

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 回归分析在R语言中的实现,我们将从更专业的角度对模型进行一些解读

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论