问题1: 我想利用固定效应面板数据模型研究X对Y的影响,我在模型中加入了控制变量Z1,Z2,Z3,Z4,Z5,Z6等,但是我所列举的控制变量回归系数显著性不是很好?比如,当我撤掉Z6时,Z5的系数变得显著了。但是,我是否应该撤掉Z6呢?按照理论是可以保留Z6的,但是要是为了凑显著性,我可能会选择把Z6撤掉,这些控制变量的显著性是否重要呢,是否可以撤掉?因为无论怎么撤控制变量,X的显著性都没变。我猜是多重共线引起的但是在面板数据中好像没太多人强调多重共线?我应该怎么处理比较好?简单的说,请可否告知我怎么观测固定效应模型和动态面板模型中的多重共线性?
答案1:
一个变量是否应该作为控制变量,应该从理论出发。换句话说,应当依据理论事先确定控制变量,而不应根据回归结果事后确定保留哪些变量。根据问题所述,X的系数在不同控制变量下均保持稳健,这是一个正面信号。此外,多重共线性不是一个必须处理的问题,它的存在并不影响关键估计量的一致性。如果非要处理,可以看看哪些自变量实际上度量了类似的信息——这种情况下可以去掉多余变量,缓解多重共线性。
问题2: 在做回归时,对于系数的显著性,大部分stata给出的是t值,但是有时候是z值,这个有什么不同呢?什么时候会是z值?
我在百度上看到,有的说是,样本量的问题,小样本下,假定扰动项正态,估计参数服从t分布,在大样本下,渐进到正态,所以是Z值,不知道这种说法对吗?如果是这样的话,那就是跟样本量有关,但是我试了同样的样本量,在ols估计时,系数显著性给的是t值,GMM时,系数显著性给的是Z值,那这个怎么解释?另外,z值也是等于参数估计值除以标准误吗?在使用2sls时,为什么一阶段回归的系数显著性给出的是t值,而第二阶段的系数显著性给的z值?很明显,这应该不是样本量大小的问题,因为这是对于同样的数据集的结果。所以,系数显著性的判断,为什么有时候是t值有时候是z值?
答案2:
在线性回归的经典假设(同方差、误差项服从正态分布等等)下,系数估计量除以标准误服从t分布,这是regress命令在传统上将这一比值命名为“t值”的原因。但是在一般情形下,估计量与其标准误的比值在有限样本中不服从t分布,而是在渐进意义上(大样本)服从正态分布,这是许多命令将其命名为“z值”而非“t值”的原因。所以,当你看到Stata报告z值,这背后一般对应着一个渐进服从正态分布的统计量。但是,当你看到Stata报告t值,也不意味着背后的统计量一定服从t分布(比如reg加robust选项,估计量与其标准误的比值已不服从t分布,而渐进服从正态分布,但是Stata按照习惯仍将其叫做“t值”)。不论如何,在大样本情形下,t值和z值都渐进服从正态分布,跟它们叫什么名字关系不大。
学术指导:张晓峒老师
本期解答人:中关村大街
编辑:冷萱 杨芳 Hollian
统筹:芋头 易仰楠
技术:知我者