您的位置 首页 > 数码极客

如何用excel做回归分析、excel回归分析表解读!

之前的文章介绍了统计学中的一元线性回归及其Excel实操,本文介绍多元线性回归分析。

线性回归分析是统计中的一种很重要的统计分析方法。从处理变量的多少来看,如果研究的是两个变量之间的关系,称为一元线性回归分析,如果研究的是两个以上变量之间的关系,称为多元线性回归分析。

一个例子

一个大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下表就是该银行所属的25家分行的有关业务数据。

以不良贷款为y,其余变量为x,贷款余额x1,累计应收贷款x2,贷款项目个数x3,固定资产投资额x4,建立线性回归方程。

多元线性回归方程及最小二乘法

多元线性回归方程为:

需要求出该方程的常数项和回归系数,一般采用最小二乘法来求解。

一元线性回归方程是一条直线,在空间直角坐标系中可以绘制出来,多元线性回归则不同,为了更加形象地理解,这里考虑二元回归,二元回归方程是三维空间中的一个平面,如下图所示。

现在需要找到一个平面来拟合空间中的观测点,求多元线性回归方程的方法依然是最小二乘法,其数学原理及计算,如果不感兴趣,可以先不用管,因为一般是通过Excel、SPSS等工具进行回归分析,这些工具可以直接给出结果!

评价回归结果

1、拟合优度

与一元线性回归类似,多元线性回归也用多重判定系数来衡量回归方程的拟合优度。

注意,这里是多重判定系数,一元线性回归分析中的叫判定系数。

与一元线性回归类似,多元线性回归也有误差平方和。

总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)

多重判定系数的定义:

由于多元线性回归涉及多个自变量,而自变量个数的增加会影响多重判定系数,所以需要调整的多重判定系数,定义如下:

说明:为什么需要多重判定系数,一个通俗的解释是因为自变量越多,提供的信息越多,回归方程会越准确,但是又违背了简洁原则,所以不能一味增加自变量。

2、显著性检验

与一元线性回归类似,多元线性回归中的显著性检验也包括以下两方面的内容:线性关系检验和回归系数检验。

所不同的是,在一元线性回归中,线性关系的检验与回归系数的检验是等价的,因为只有一个自变量。

而在多元线性回归中,有多个自变量,这两者则不再等价,因为线性关系的检验反映的是整体情况,只要有一个自变量与因变量的线性关系显著,则就可以通过检验,而回归系数的检验需要对每个回归系数分别进行检验,往往会出现某些自变量无法通过检验,这也是后面将会提到的多重共线性问题。

说明:

线性关系检验主要关心F分布的P值,回归系数检验主要关心t分布的P值,具体理论这里略去,因为Excel可以直接给出对应的P值,判断的原则就是,P值越小越好,一般是小于0.05就符合要求。

实操:用Excel进行多元线性回归分析

在“数据分析”中选择回归:

Y值输入区域,选择“不良贷款”,X值输入区域,选择“各项贷款余额”、“本年累计应收贷款”、“贷款项目个数”及“本年固定资产投资额”这4列,置信度用默认的95%,残差部分,勾选“残差”、“残差图”、“线性拟合图”,确定即可。

得出以下分析结果:

在上方的结果中,判定系数、显著性检验的结果如标黄区域所示。

从上面可以看到,多重判定系数为0.798,调整后的多重判定系数为0.71,说明两者有较强的线性关系。

线性关系检验,显著性水平远小于0.05,通过显著性检验。

回归系数检验,共有4个回归系数,只有第一个回归系数的显著性水平小于0.05,可以通过显著性检验;其余三个回归系数的显著性水平都大于0.05,无法通过显著性检验,说明后面三个自变量对预测不良贷款的作用不大。

另外,第4个回归系数“本年度固定资产投资额”为负值,说明本年度固定资产投资额与不良贷款负相关,实际上,从常理来说,本年度固定资产投资额越大,不良贷款也越多(对固定资产投资额与不良贷款做一元线性回归分析即可验证),这就是多重共线性问题导致的,接下来讲解多重共线性问题。

多重共线性问题

1、什么是多重共线性

当模型中出现两个或两个以上的自变量彼此相关时,则称回归分析中存在多重共线性问题。

2、多重共线性问题会产生什么问题?

(1)使回归分析结果混乱:如上面的例子中,线性关系显著性检验可以通过,但是回归系数中有三个无法通过显著性检验。

(2)对回归系数的正负号产生影响:如上面的例子中,本年度固定资产投资额与不良贷款负相关,与实际情况矛盾。

3、如何识别多重共线性?

比较常用的是VIF(variance inflation factor),即方差扩大因子。

一般认为,VIF大于10时,存在严重的多重共线性。

解决多重共线性问题:逐步回归

解决多重共线性问题的核心:建模前,先选择变量,使进入模型的自变量尽可能不相关。

选择自变量的原则:将一个或一个以上的自变量引入回归模型中,是否可以使残差平方和(SSE)显著减少。常用的选择变量的方法主要有:向前回归、向后回归、逐步回归、岭回归等。

向前选择:从零开始,不断增加自变量,直至无法使SSE增加为止。

向后选择:从包含所有变量开始,不断减少自变量,直至无法使SSE增加为止。

逐步回归:将上述两种方法结合,进行自变量筛选。

由于Excel无法完成逐步回归,下面采用SPSS进行逐步回归。

逐步回归法SPSS实操

用SPSS进行逐步回归分为以下3步:

1、分析-回归-线性

2、添加自变量和因变量,选择逐步回归

3、根据指标VIF筛选,从后往前选择合适的模型

具体操作如下:

1、分析-回归-线性

2、添加自变量和因变量,选择逐步回归

Statistics窗口中,勾选“共线性诊断”

3、根据指标VIF筛选,从后往前选择合适的模型

得到了2个模型,上面表格最后一列是VIF,一般来说,当VIF大于10时,模型存在严重的多重共线性问题,这里选择第2个模型即可。

从上面表格看到,第2个模型引入了2个自变量,各项贷款余额、本年度固定资产投资额,表格第2列给出了线性回归方程的常数项和回归系数。

写出多元线性回归方程:

y=-0.443+0.050*x1-0.032*x2

说明:上述方程中,y表示不良贷款,x1表示各项贷款余额,x2表示本年度固定资产投资额。

总结:

多元线性回归涉及多重共线性问题,一般采用逐步回归法来筛选变量,这里利用SPSS进行逐步回归。

你平时工作中是否用过多元线性回归?欢迎留言评论!

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

相关推荐