您的位置 首页 > 数码极客

“如何对数据异常值处理“实验数据异常值如何处理!

小白入门数据分析常见步骤

目录

一、 选题背景与目的 1

二、分析前的准备 2

1.分析方法 2

2.整理数据 4

3.上传数据 4

4.数据的清理 5

三、 操作过程与讨论 7

1.操作过程 7

2.结论 7

3.其它 8

四、 总结 9

本次给大家分享一下数据分析常见步骤,帮助大家如何快速完成数据分析。其中包括选题背景与目的、分析前的准备、操作过程与结论以及总结四大部分。

  1. 选题背景与目的

一般在数据分析前有特定的场景以及目的,有时可以根据分析目的进行选择分析方法,从而更快的进行数据分析。比如一组数据想要研究不同性别对于商场满意度是否有差异。也许可以使用方差、t检验、卡方检验等方法,但是具体选择哪种方法要根据数据类型以及结构来决定。在分析前我们需要选定分析方法以及对数据进行简单处理。

二、分析前的准备

1.分析方法

提到“分析方法”可能很多人比较苦恼,已经准备好数据但是不知道应该选择什么方法,比如自己的数据是定类还是定量,是否满足分析方法要求等等。首先我们来了解下什么是定类数据,定量数据,如下:

经了解案例中的“商场服务满意度”属于定量数据,“性别”属于定类数据,已经明确了数据类型接下来要选择研究方法,先区分数据类型,然后再选择对应的研究方法,一般流程是这样的,也只有这样进行,才能知道自己做的对还是不对,不容易“返工”,接着说明不同数据类型之间的常用分析方法。

其它分析方法以及具体差别汇总整理如下:

如上因为是定类数据与定量数据交叉分析所以可以使用T检验或者方差分析,但是“性别”仅两类所以选择T检验。

2.整理数据

选择使用的分析方法后需要根据方法整理正确的数据格式,t 检验是研究2组数据的差异,比如不同性别时对商场服务满意度的差异。数据格式中需要有组别X(比如性别)和分析项Y(比如满意度)。如下图:

其它常用方法的数据格式如下:

整理后数据部分如下:

3.上传数据

将整理好的数据上传至SPSSAU系统,需要以正确的格式,一般来说要求:第1行为标题或变量名,第2行起即为具体的数据,不能合并单元格。如果出现没有回答、空值、缺失值等情况,直接空着即可,不用录入。步骤如下:点击上传数据→点击上传文件(也可以参考上传说明),同时系统内可以预览前20条数据,上传后点击进入分析即可。

4.清理数据

在正式分析前需要进行数据清理,其中包括基本数据查看、标题修改简化、数据标签、数据编码等一些常见处理方式。

(1)基本的数据查看

通常在分析前建议大家可以使用“描述分析”、“频数”或散点图等图示法,了解下数据的分布特征,比如平均值等。如果出现异常值,根据实际情况观察时候会影响到分析结果,考虑剔除或者不处理。异常值的判断标准如下:

案例中数据分布特征如下:

描述性分析通过平均值或中位数描述数据的整体情况。从上表可以看出:当前数据中并没有异常值,因而SPSSAU建议可直接针对平均值进行描述分析。总结可知,数据中没有异常值出现,可直接针对平均值进行描述分析。并且也没有异常值。除了对异常值处理外,还需要对于无效样本的检查:如果数据来源为问卷,则很可能出现无效样本,因为填写问卷的样本是否真实填写无从判定;如果数据库下载或者使用二手数据等,也可能出现大量缺失数据等无效样本。可以使用SPSSAU数据处理中的无效样本进行检验与处理。设置好无效样本标准后,默认会新生成一个标题,用来标识那些样本是有效,那些是无效,在分析的时候直接进行筛选下就好(有的数据不需要进行无效样本筛查需按实际情况处理)。

接下来对数据标题进行检查,是否需要修改与简化。

(2)标题修改简化

处理异常值或者无效样本后,如果觉得分析项名称过长,或者需要修改分析项名称,可以利用【数据处理】板块中的【标题处理】即可修改。

(2)数据标签与编码

对于数据标签,如果研究者想给分类数据设置标签,比如分类数据有1、2两组,想要案例数据1代表男,数据2代表女则可以使用此功能,如下图。至于数据编码一般问卷中反向题使用的比较多,对于常见的数据分组也可以使用数据编码功能。对于问卷搜集数据,有时问卷中有跳转题,此时可以使用【筛选样本】或【异常值】筛选/剔除掉空值。

  1. 操作过程与结论

1.操作过程

收集并准备好数据后,就可以开始运行分析。SPSSAU的操作方法非常简单,几乎所有操作都是三步完成:左右拖拽,点一下即可得到结果(经检验数据已经满足方差分析条件)。如下:

2.结论

结论的呈现方式有表格、图示法以及三线表形式等。

(1)表格

从上表可以看出:不同性别样本对于服务满意度全部均呈现出显著性(p<0.05),意味着不同性别样本对于服务满意度均有着差异性。具体分析可知:性别对于服务满意度呈现出0.01水平显著性(t=17.186,p=0.000),以及具体对比差异可知,男的平均值),会明显高于女的平均值)。从图中也可以看出差异性。

男的平均值),会明显高于女的平均值),意味着不同性别样本对于服务满意度均有着差异性。

3.其它

(1)小数位设置

设置小数位个数,让你的结果展示更加专业。鼠标移动到右上角[头像处]--[小数位]即可修改小数位个数,最高支持保留10位小数。

(2)P值标识

鼠标移动到SPSSAU右上角[头像处]--[ p值标识],更改P值标识,需重新分析即可生效。

总结

数据分析常见步骤如上已经基本描述完,一般对于分析前准备,不同方法要求不一样,研究者需要根据实际情况对数据进行处理,有的数据并不需要进行处理,需要研究者根据实际情况进行选择,以及操作过程和结论,每个方法的理论和结果的呈现方式不同,描述时还需要进一步考量。

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“如何对数据异常值处理,实验数据异常值如何处理,python数据异常值的处理,spss数据异常值处理,数据清洗异常值处理,excel数据异常值处理”边界阅读