之前的文章介绍了统计学中的一元线性回归及其Excel实操,本文介绍多元线性回归分析。
线性回归分析是统计中的一种很重要的统计分析方法。从处理变量的多少来看,如果研究的是两个变量之间的关系,称为一元线性回归分析,如果研究的是两个以上变量之间的关系,称为多元线性回归分析。
一个例子
一个大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下表就是该银行所属的25家分行的有关业务数据。
以不良贷款为y,其余变量为x,贷款余额x1,累计应收贷款x2,贷款项目个数x3,固定资产投资额x4,建立线性回归方程。
多元线性回归方程及最小二乘法
多元线性回归方程为:
需要求出该方程的常数项和回归系数,一般采用最小二乘法来求解。
一元线性回归方程是一条直线,在空间直角坐标系中可以绘制出来,多元线性回归则不同,为了更加形象地理解,这里考虑二元回归,二元回归方程是三维空间中的一个平面,如下图所示。
现在需要找到一个平面来拟合空间中的观测点,求多元线性回归方程的方法依然是最小二乘法,其数学原理及计算,如果不感兴趣,可以先不用管,因为一般是通过Excel、SPSS等工具进行回归分析,这些工具可以直接给出结果!
评价回归结果
1、拟合优度
与一元线性回归类似,多元线性回归也用多重判定系数来衡量回归方程的拟合优度。
注意,这里是多重判定系数,一元线性回归分析中的叫判定系数。
与一元线性回归类似,多元线性回归也有误差平方和。
总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
多重判定系数的定义:
由于多元线性回归涉及多个自变量,而自变量个数的增加会影响多重判定系数,所以需要调整的多重判定系数,定义如下:
说明:为什么需要多重判定系数,一个通俗的解释是因为自变量越多,提供的信息越多,回归方程会越准确,但是又违背了简洁原则,所以不能一味增加自变量。
2、显著性检验
与一元线性回归类似,多元线性回归中的显著性检验也包括以下两方面的内容:线性关系检验和回归系数检验。
所不同的是,在一元线性回归中,线性关系的检验与回归系数的检验是等价的,因为只有一个自变量。
而在多元线性回归中,有多个自变量,这两者则不再等价,因为线性关系的检验反映的是整体情况,只要有一个自变量与因变量的线性关系显著,则就可以通过检验,而回归系数的检验需要对每个回归系数分别进行检验,往往会出现某些自变量无法通过检验,这也是后面将会提到的多重共线性问题。
说明:
线性关系检验主要关心F分布的P值,回归系数检验主要关心t分布的P值,具体理论这里略去,因为Excel可以直接给出对应的P值,判断的原则就是,P值越小越好,一般是小于0.05就符合要求。
实操:用Excel进行多元线性回归分析
在“数据分析”中选择回归:
Y值输入区域,选择“不良贷款”,X值输入区域,选择“各项贷款余额”、“本年累计应收贷款”、“贷款项目个数”及“本年固定资产投资额”这4列,置信度用默认的95%,残差部分,勾选“残差”、“残差图”、“线性拟合图”,确定即可。
得出以下分析结果:
在上方的结果中,判定系数、显著性检验的结果如标黄区域所示。
从上面可以看到,多重判定系数为0.798,调整后的多重判定系数为0.71,说明两者有较强的线性关系。
线性关系检验,显著性水平远小于0.05,通过显著性检验。
回归系数检验,共有4个回归系数,只有第一个回归系数的显著性水平小于0.05,可以通过显著性检验;其余三个回归系数的显著性水平都大于0.05,无法通过显著性检验,说明后面三个自变量对预测不良贷款的作用不大。
另外,第4个回归系数“本年度固定资产投资额”为负值,说明本年度固定资产投资额与不良贷款负相关,实际上,从常理来说,本年度固定资产投资额越大,不良贷款也越多(对固定资产投资额与不良贷款做一元线性回归分析即可验证),这就是多重共线性问题导致的,接下来讲解多重共线性问题。
多重共线性问题
1、什么是多重共线性
当模型中出现两个或两个以上的自变量彼此相关时,则称回归分析中存在多重共线性问题。
2、多重共线性问题会产生什么问题?
(1)使回归分析结果混乱:如上面的例子中,线性关系显著性检验可以通过,但是回归系数中有三个无法通过显著性检验。
(2)对回归系数的正负号产生影响:如上面的例子中,本年度固定资产投资额与不良贷款负相关,与实际情况矛盾。
3、如何识别多重共线性?
比较常用的是VIF(variance inflation factor),即方差扩大因子。
一般认为,VIF大于10时,存在严重的多重共线性。
解决多重共线性问题:逐步回归
解决多重共线性问题的核心:建模前,先选择变量,使进入模型的自变量尽可能不相关。
选择自变量的原则:将一个或一个以上的自变量引入回归模型中,是否可以使残差平方和(SSE)显著减少。常用的选择变量的方法主要有:向前回归、向后回归、逐步回归、岭回归等。
向前选择:从零开始,不断增加自变量,直至无法使SSE增加为止。
向后选择:从包含所有变量开始,不断减少自变量,直至无法使SSE增加为止。
逐步回归:将上述两种方法结合,进行自变量筛选。
由于Excel无法完成逐步回归,下面采用SPSS进行逐步回归。
逐步回归法SPSS实操
用SPSS进行逐步回归分为以下3步:
1、分析-回归-线性
2、添加自变量和因变量,选择逐步回归
3、根据指标VIF筛选,从后往前选择合适的模型
具体操作如下:
1、分析-回归-线性
2、添加自变量和因变量,选择逐步回归
Statistics窗口中,勾选“共线性诊断”
3、根据指标VIF筛选,从后往前选择合适的模型
得到了2个模型,上面表格最后一列是VIF,一般来说,当VIF大于10时,模型存在严重的多重共线性问题,这里选择第2个模型即可。
从上面表格看到,第2个模型引入了2个自变量,各项贷款余额、本年度固定资产投资额,表格第2列给出了线性回归方程的常数项和回归系数。
写出多元线性回归方程:
y=-0.443+0.050*x1-0.032*x2
说明:上述方程中,y表示不良贷款,x1表示各项贷款余额,x2表示本年度固定资产投资额。
总结:
多元线性回归涉及多重共线性问题,一般采用逐步回归法来筛选变量,这里利用SPSS进行逐步回归。
你平时工作中是否用过多元线性回归?欢迎留言评论!