在上一篇文章基于多元线性回归对江苏省平均工资的预测(利用spss软件)(上)(基于多元线性回归对江苏省平均工资的预测(利用spss软件)(上))中我们说到了模型存在严重的共线性问题,这里我们进一步给出我们的解决方案。
为了消除模型的多重共线性,这里我们用逐步回归法来解决。
图一:逐步回归法
当候选变量中最大F值的P值小于或等于0.05时,引入相关变量。在引入方程的变量中,最小F值的P值大于或等于0.1时,则剔除该变量。
表五:已输入/除去变量
表五显示的是逐步回归的过程,首先引入了变量X2,建立了模型一;再引入变量X4,建立了模型二。最终建立的模型只包含了X2、X4。
表六:模型摘要
在表六中我们可以看到模型一的判定系数R2为0.997,模型二的判定系数R2为0.999,模型二的拟合情况比模型一要好。
表七:ANOVA
从表七中我们可以看到回归的显著性检验sig值,模型一和模型二的sig都为0.00<0.05,说明回归程度显著。
表八:系数
观察表八我们可以得知模型一的VIF值为1.000,容许度为1.000;模型二VIF值也小于10,容许度大于0.1,根据VIF值发现两个模型都没有出现多重共线性。
根据模型建立的多元线性回归方程为:
y=13513.663+0.777X2-15167.672X4。
表九:排除的变量
表九显示的是回归方程外的个模型变量的有关统计量,可见模型方程外的各变量回归系数经重检验,概率p值均大于0.10,故不能引入方程。
表十:共线性诊断
该表显示的是多重共线性检验的特征值以及条件指数。对于第二个模型,最大特征值为2.703,其余一次快速减小。从第三列的各个条件指数中可以看出模型二中也存在着多重共线性。不过这个可能是由于样本容量太小造成的。
表十一:残差统计数据
从表十一回归模型的残差统计量我们可以看出,标准化残差的绝对值最大为1.426,没有超过默认值3,不能发现奇异值。
根据判定系数R2,模型二的拟合情况好于模型一,模型二的VIF值小于10,容许值大于0.1,虽然在共线性诊断中模型二存在着共线性,但是这个可能是由于样本容量太小造成的。所以我们选择模型二。
根据表八给出的回归系数的结果,从而得出最优回归方程:
y=13513.663+0.777X2-15167.672X4。
此时判定系数R2为0.999,调整判定系数为0.999。
2.4 回归模型统计检验
根据上面确定的最优回归方程,y=13513.663+0.777X2-15167.672X4。
根据表七、表八、表十一中的相关数据,我们可以得到:
(1) 方程中的常数项为13513.663,偏回归系数β2为0.777,β4为-15167.672。经T检验,β2、β4的概率p值分别为0.000和0.001,按照给定的显著性水平0.10的情形下,均有显著性意义。
(2) 模型的F统计量的观察值为5355.292,概率p值为0.000,在显著性水平为0.05的情形下,可以认为y与X2、X4之间有线性关系。
(3) 模型标准化残差的绝对值最大为1.426,没有超过默认值3,不能发现奇异值。
图二:回归标准化残差的直方图
图三:回归标准化残差的正态P-P 图
图四:因变量与回归标准化预测值的散点图
图二为回归标准化残差的直方图,正态曲线也被显示在直方图上,用以判断标准化残差是否成正态分布。但是由于样本量只有14个,所以只能大概判断其呈正态分布。
图三为标准化的正态P-P图,该图给出了观测值的残差分布与假设的正态分布的比较,由图可知标准化残差散点分布靠近直线,因而可以判断标准化残差呈正态分布。
图四为因变量与回归标准化预测值的散点图,其中DEPENDENT为X轴变量,*ZPRED为y轴变量。由图可见,两变量呈直线趋势。
综上所述,该多元线性回归模型检验效果良好。
3 用模型预测值与实际值比较
将2014年到2016年数据代入模型得出预测值与实际值比较,结果如表所示
表十二:模型预测值与实际值比较
4 结论与反思:
根据模型预测的2014年到2016年的值与实际值比较,我们发现误差介于-1.6%到0.65%之间,当然我们预测的数据不是很多,不过还是可以证明此模型具有较高的精准性。,经过此轮验证可得出结论:建立多元线性回归方程:
y=13513.663+0.777X2-15167.672X4。
该模型对中短期的平均工资的预测具有较高的精准性,但是对于长期的平均工资的预测可能精准性不是很高。而且在实际情况下,影响平均工资的因素还有很多,但我们并不能把所有的因素全部引入到多元线性回归模型中,因为这样可能会导致模型的拟合度还有回归方程的稳定性变差,引起更严重的多重共线性,进而影响模型预测的精度。[6]包括在进行逐步回归法的时候,我们选取的第二个模型在进行共享性分析的时候仍然发现有特征值很小的,为0.003,条件系数还有大于10的,说明模型还是存在着多重共线性,但是这个可能是由于样本容量太小造成的。所以如果要更加准确的预测平均工资水平,我们还需要做进一步的调查和研究。
参考文献:
[1]中国社会科学院经济研究所 编;刘树成 主编,现代经济词典,南京;南京:凤凰出版社;江苏人名出版社.2005.第282页.
[2] 凌 佳. 基于时间序列模型的职工平均工资预测[J]. 沈阳师范大学学报(自然科学版),2012,30(04):472页.
[3][4][6] 李媛. 多元线性回归在平均工资预测中的应用研究[J].信息通信,2018(1):31-32页.
[5] 中华人民共和国公家统计局.江苏省统计局.江苏统计年鉴2000-2017[M].北京:中
北京数通电子出版社.
[6] 韩绍庭,周雨欣. 多元线性回归与ARIMA 在中国人口预测中的比较研究[J]. 中国管理信息化,2014,17(22):100-102页.
附件:
原始数据:
自变量散点图:
由散点图可以看出,可进入分析的变量为X2(观测年份城镇居民消费价格指数)和X4(观测年份城镇化率)。
欢迎关注学术小叶,专业优质的原创文章,有学术,有情感,有江湖。