缺失值常用处理方法
对于包含缺失值的数据分析,往往涉及众多围绕各种假定而展开的具体问题。具体来讲,首先需要考虑以下几个问题:
根据既定条件,哪种假设更为合理和可取(往往取决于相关的专业理论知识和具体问题的相关信息)
力求假设的内容清晰明确
考察统计推断过程对于该假设的敏感性
充分了解哪一种假设与所进行的具体分析过程相关联
一般来讲,对于缺失值的处理。某些基于弱假设处理手段是可取的,而对其相应的实现策略即具体的计算方法进行探索和研究也有重大的意义。然而,目前经常采用的缺失值处理手段,往往计算方法简单,但要求以强假设为基础,此类处理手段的典型例子包括完整数据及分析和LOCF。是指将完整的观测收集的值纳入数据处理的方法。忽略有缺失的观测个体。后者是指用缺失之前的最后一次观测值直接替换缺失值,多用于纵向观察研究的数据处理。
R语言处理的缺失值
简单缺失值处理方法及缺陷
相对于复杂的缺失值处理方法此处的简单方法目的在于获得一个完整的数据集,然后对该数据集进行预定的分析处理。如同缺失值根本未发生一样。然而这种处理方式所得的结果往往存在不同程度的缺陷。除非处理该类方式建立在及具有有说服力的特定假设的基础上。
简单缺失值处理的方法有。:完整数据及分析法、简单均数填补法、回归均数填补法、新类别法和LOCF法。
缺失值的高级处理方法
此类方法具有以下几个共同特点:
不直接将缺失值替换为某个特定的数值,从而将其转化为非缺失值
将现有信息实际观测到的数据和某些特定的背景信息和不依赖于实测数据的特定假设相结合进行数据统计分析
该类方法的目的在于获得每一个缺失值的有关统计学信息。比如有关该缺失值真实取值的分布信息等,获知有关缺失机制的某些信息。
概况来讲,缺失值的高级处理方法主要包括以下几种类型:基于特定模型法,简单随机填补法,多重随机填补法,加权处理法。
接下来的下期我们就简单缺失值处理方法和高级处理方法进行详细分析。