最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 1.多元线性回归的基本的分析方法与一元线性建模过程

    R语言解读多元线性回归模型

    在许多生活和工作的实际问题中,可能有不止一个因素影响因变量。比如,知识水平越高,收入水平越高,这样的结论。这可能包括由于更好的家庭条件而获得更好的教育;一线城市的发展带来更好的就业机会;他们所从事的行业已经赶上了经济大周期等。解读这些规律是复杂的、多维度的,多元回归分析方法更适合解读生命规律。

    由于本文为非统计专业文章,如有描述与教科书不一致,请以教科书为准。本文力求用一种简化的语言来介绍多元线性回归的知识,同时配合R语言的实现。

    1.多元线性回归介绍

    与单变量线性回归相比,多元线性回归是一种统计分析方法,用于确定两个或多个变量之间的关系。多元线性回归的基本分析方法与单变量线性回归方法类似。我们首先需要选择一个多数据集并定义一个数学模型,然后进行参数估计,并对估计的参数进行显着性检验、残差分析和异常分析。点检测,最终确定模型预测的回归方程。

    由于多元回归方程有多个自变量,它不同于单变量回归方程。一个非常重要的操作是自变量的优化。选取相关性最显着的自变量,同时剔除不显着的自变量。在R语言中,有非常方便的优化函数可以帮助我们改进回归模型。

    让我们开始多元线性回归的建模过程。

    2. 多元线性回归建模

    做过商品期货研究的都知道,黑色品种关系到产业链的上下游。铁矿石是炼钢的原料,焦煤和焦炭是炼钢的能源,热卷,即热轧卷,是以加热板坯为原料制成的钢板,螺纹钢是带肋钢筋表面上。

    由于产业链的关系,如果要预测螺纹钢价格,影响螺纹钢价格的因素可能涉及原材料、能源资源和类似材料。例如,如果铁矿石价格上涨,螺纹钢价格应该上涨。

    2.1 数据集和数学模型

    让我们从数据开始。本次数据集,我选择的黑基期货商品期货,包括大连期货交易所的焦煤(JM)、焦炭(J)、铁矿石(I)。 、螺纹钢 (RU) 和热卷 (HC) 在上海期货交易所上市。

    数据集为2016年3月15日,当日开盘日交易数据,5个黑色期货合约分钟线价格数据。

    r语言线性回归分析_r语言 时间序列回归_用r语言做多元线性回归

    数据集由 6 列组成:索引,用于时间

    x1,是可乐1分钟行的报价数据(j1605)合约

    x2,为焦煤1分钟线的报价数据(jm1605)合约

    x3,是铁矿石1分钟线上的报价数量(i1605)合约

    x4,是热卷1分钟线的报价数据(hc1605)合约

    y,为螺纹钢1分钟线的报价数据(rb1605)contract

    假设螺纹钢价格与其他4种商品价格呈线性关系,则建立以螺纹钢为因变量,焦煤、焦炭、铁矿石和热卷为自变量的多元线性回归模型。制定为:

    y,是因变量,钢筋

    x1,是自变量,炼焦煤

    x2,为自变量,焦炭 x3,为自变量,铁矿石

    x4,是自变量,热轧

    a, 是截距

    b,c,d,e 是自变量系数

    ε,为残差,是所有其他不确定因素影响的总和,其值不可观测。假设ε服从正态分布N(0,σ^2).

    通过多元线性回归模型的数学定义,我们用数据集来估计多元回归模型的参数。

    2.2.回归参数估计

    在上式中,回归参数a、b、c、d、e都是我们不知道的。参数估计就是通过数据对这些参数进行估计,从而确定自变量和因变量之间的关系。我们的目标是计算一条直线,使直线上每个点的 Y 值与实际数据的 Y 值之差的平方和最小,即 (Y1 实际 – Y1 预测)^2 + (Y2 实际- Y2 预测)^2+ … +(Yn 实际 – Yn 预测)^2 具有最小值。参数估计时只考虑Y随X自变量的线性变化,残差ε不可观测,参数估计方法不需要考虑残差。

    类似于单变量线性回归,我们使用R语言实现数据回归模型的参数估计,并使用lm()函数实现多元线性回归的建模过程。

    r语言线性回归分析_用r语言做多元线性回归_r语言 时间序列回归

    这为我们提供了 y 和 x 之间关系的方程式。

    2.3.回归方程的显着性检验

    参考单变量线性回归的显着性检验,多元线性回归的显着性检验,同样需要经过T检验,F检验,R^2(R平方)相关系统检验。在R语言中,这三种测试方法已经实现了,我们只需要解释结果,就可以使用summary()函数提取模型的计算结果。

    r语言 时间序列回归_用r语言做多元线性回归_r语言线性回归分析

    T检验:所有自变量都非常显着***

    F检验:也很显着,p值<2.2e-16

    调整后的 R^2:0.972

    的相关性非常强

    最后我们通过了回归参数的检验和回归方程的检验,得到了最终的多元线性回归方程:

    r语言 时间序列回归_用r语言做多元线性回归_r语言线性回归分析

    2.4 残差分析和异常值检测

    在对得到的回归模型进行显着性检验后,还要进行残差分析(预测值与实际值的差值)来检验模型的正确性。残差必须服从正态分布N(0, σ^2)。直接使用plot()函数生成4种图形进行模型诊断,便于直观分析。

    用r语言做多元线性回归_r语言线性回归分析_r语言 时间序列回归

    残差和拟合值(左上),残差和拟合值之间的数据点均匀分布在y=0的两侧,呈随机分布,红线表示平滑曲线且有是没有明显的形状特征。

    残差QQ图(右上),数据点排列成对角直线,趋于直线,与对角线直接相交,直观上符合正态分布。

    标准化残差的平方根和拟合值(左下),数据点均匀分布在y=0两侧用r语言做多元线性回归,呈随机分布用r语言做多元线性回归,红线表示平滑曲线,没有明显的形状特征.

    标准化残差和杠杆值(右下),没有出现红色等高线,说明数据中没有特别影响回归结果的异常值。

    结论,不存在明显异常值,残差符合假设。

    2.5.模型预测

    我们有多元线性回归方程的公式,我们可以对数据进行预测。我们可以使用R语言的predict()函数计算预测值y0和对应的预测区间,将实际值和预测值一起可视化。

    r语言 时间序列回归_用r语言做多元线性回归_r语言线性回归分析

    图例说明:

    y,实际价格,红线

    合适,预测价格,绿线

    lwr,预测最低价格,蓝线

    upr,预测高价,紫线

    从图中可以看出,实际价格 y 和预测的价格契合度大部分时间都非常接近。我们的一个模型已经过训练!

    3.模型优化

    在上面,我们成功地找到了一个非常好的模型。如果要优化模型,可以使用R语言中的update()函数来调整模型。我们首先检查每个自变量 x1、x2、x3、x4 和因变量 y 之间的关系。

    r语言 时间序列回归_用r语言做多元线性回归_r语言线性回归分析

    从图中我们可以发现x2和Y的关系可能是最偏离线性的。然后,我们尝试调整多元线性回归模型,并从原始模型中移除 x2 变量。

    r语言线性回归分析_用r语言做多元线性回归_r语言 时间序列回归

    去掉自变量x2后,自变量x3的T检验变大,Adjusted R-squared变小,所以我们这次的调整有问题。

    如果分析生产和原材料的内在逻辑,焦煤和焦炭属于上下游关系。炼焦煤是生产炼焦煤的原料。炼焦煤是炼焦煤与其他炼焦煤通过配煤形成的产品。一般1吨炼焦煤需要1.33吨炼焦煤,其中炼焦煤至少占30%。

    我们换一下焦煤和焦炭的关系,加上x1*x2的关系来匹配模型,看看效果。

    从结果中发现,加入x1*x2列后,原来的x1、x2和Intercept的T检验都不显着。继续调整模型,从模型中去掉两个自变量x1和x2。

    r语言 时间序列回归_r语言线性回归分析_用r语言做多元线性回归

    从调整后的结果来看,效果还不错。尽管如此,它也没有比原来的模型有任何改进。

    对于模型调整过程,如果我们手动调整测试,我们一般根据业务知识进行操作。如果根据数据指标计算,我们可以使用R语言提供的逐步回归优化方法,并使用AIC指标来判断是否需要进行参数优化。

    用r语言做多元线性回归_r语言线性回归分析_r语言 时间序列回归

    通过计算AIC指标,lm1的模型最小AIC为324.51。每次去掉一个自变量,AIC的值都会增加,所以最好不要调整。

    对刚才的lm3模型做逐步回归模型调整。

    用r语言做多元线性回归_r语言线性回归分析_r语言 时间序列回归

    通过AIC的判断,去掉X1*X2项后AIC最小,最终的测试结果告诉我们原来的模型是最好的。

    4.案例:黑期货日K线数据校验

    最后,我们用上述五种期货合约的日K线数据进行检验,找出多元回归关系。

    r语言 时间序列回归_r语言线性回归分析_用r语言做多元线性回归

    关于数据集的基本统计数据。

    r语言线性回归分析_用r语言做多元线性回归_r语言 时间序列回归

    对于日K线数据,五个黑色品种也有很强的相关性,所以我们可以将这个结论应用到实际交易中。

    本文通过多元回归的统计分析方法,介绍了多元回归在金融市场的基本应用。通过建立因变量和多个自变量的模型,可以发现生活中更复杂的规律,建立有效的验证指标。

    感谢收看

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 1.多元线性回归的基本的分析方法与一元线性建模过程

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论