对于缺失数据的主要处理方法[编辑]
在许多情况下,少量的缺失回答是可以容忍的。但是如果缺失值的比例超过了10%,就可能出现严重的问题。处理缺失值主要有以下四种方法:
1)用一个量本量的统计量的值去代替缺失值
缺失值可以用一个样本统计量去代替,最典型的做法是使用变量的平均值。这样,由于该变量的缺失值会保持不变,那么其他的统计量如标准差和相关系数等也不会受很大的影响。不过从逻辑上来说,这样做是不科学的,因为被访者如果回答了该问题的话,其答案可能是高于或低于该平均值的。
2)用从一个统计模型中计算出来的值去代替缺失值
这种处理缺失值的方法就是利用由某些统计模型计算得到比较合理的值来代替,如利用回归模型、判别分析模型等。如果只是简单地删除掉这一部分的回答,那么肯定会引起严重的预测偏差。
3)将有缺失值的个案整个删除
将有缺失值的个案整个删除的方法,结果可能会导致很小的样本,因为很多被访者都多多少少会有一些项目没有回答。删除大量数据并不是所希望的,因为数据的收集是需要大量的经费和时间的。而且,有缺失回答的被访者与那些全部回答的被访者之间可能会有显著的差异。如果真是如此,这种整个删除的方法会导致有严重偏差的结果。
4)将有缺失值的个案保留,仅在相应的分析中作必要的排除
将有缺失值的个案保留,仅在相应的分析中作必要的排除的方法,会使分析中不同的计算将根据不同的样本量进行,这也有可能导致不适宜的结果。但是在实践中,这种方法常被研究人员所采用,因为如果能满足以下三个条件,这种方法是妥当的:样本量很大;缺失值很少;变量之间不是高度相关的。
不同的缺失值处理方法可能产生不同的结果,特别是当回答的缺失不是随机的以及变量之间存在高度相关的情况。因此,应当使缺失数据的量保持在最低的水平。在选择一种处理缺失数据的方法之前,研究人员应该仔细地考虑各种方法可能产生的后果。如果对缺失数据进行了处理,应该有文件描述,并应向客户报告。
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。