离差平方和的分解
因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面
由于自变量 x 的取值不同造成的
除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响
对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示
离差平方和的分解图示
三个平方和的关系
从上图看有:
离差平方和的分解
两端平方后求和有:
离差平方和的分解公式
三个平方和的意义
总平方和(SST)
反映因变量的 n 个观察值与其均值的总离差
回归平方和(SSR)
反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
残差平方和(SSE)
反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和
样本决定系数(判定系数 r2 )
回归平方和占总离差平方和的比例
样本决定系数
反映回归直线的拟合程度
取值范围在 [ 0 , 1 ] 之间
r2 —>1,说明回归方程拟合的越好
r2—>0,说明回归方程拟合的越差
判定系数等于相关系数的平方,即r2=(r)2
回归方程的显著性检验 (线性关系的检验 )
检验自变量和因变量之间的线性关系是否显著
具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著
如果是显著的,两个变量之间存在线性关系
如果不显著,两个变量之间不存在线性关系
检验的步骤
回归方程的显著性检验