加载Excel数据分析插件
在Excel中点击文件->选项
点击加载项,选择分析工具-VBA,点击"转到"
选择分析工具库
Excel的数据标签栏中会出现新的工具栏:数据分析
数据类型
Nominal data:数字就是数字,没有特殊意义,比如球衣上的号码,对其做算数运算没有任何意义。也被称作categorical data
Ordinal data:数字是有意义的,更大的数字代表更大的分量,比如材料莫氏硬度。但是数据之间的差没有任何意义。
Interval data:数字之间的差开始具有意义,比如温度,20度和30度之间的差和50度60度之间的差是一样的。但是数字之间的比例是没有意义的,比如不能讲比某某热两倍。
Ratio data:数字之间的比例是有意义的,比如4英寸是2英寸的两倍。开尔文温度(以绝对零度为基点)200度就是100度的两倍。
数据分类:
- 常量:不变的,比如圆周率pi
- 自变量:不随任何变量变化的,研究者操作该数据,在图表中通常用x轴表示
- 因变量:随数据变化而变化,研究者用来测量的数据,在图表中通常用y轴表示
概率
统计学中的决策基于概率
概率中的几个要素:
- 试验:任何能产生至少两个结果的过程
- 基本结果
- 事件:至少产生一个结果
- 样本空间:包含全部的基本结果
概率就是事件有多少几率发生。在一个样本空间中,每个基本结果的概率会小于1,所有基本结果的和为1.
条件概率
标记为P(A|B):如果B发生了A发生的概率
P(A|B)=P(A∩B)/P(B)
集中度
计算平均数和中值:
中值在数据有outlier的时候比平均值更有参考价值。
上面的数据,平均值增大了很多,但中值没有变化。
查看mode:数据中出现最多的数
选择多个单元格,插入函数mode.mult
选择函数参数,并按ctrl+shift+回车
最后删掉后面几个没有数据的单元格
数据的变化性
下面一组数的偏差平均数为0:
下面一组数的偏差平均数也是0:
但是上面两组数明显不一样,所以采用下面的求平方的方式计算偏差:
方差:偏差的平方和的平均数,方差越大数据变化性越大,方差越小数据变化性越小。
均方误差: mean square error(mse)
高度全部加上6之后,平均值增大了6,但是均方差任然不变
为了避免偏差中正负数互相抵消带来的影响,我们使用平方计算,但是最后的方差是个平方数似乎不太合理,所以再开方。这就是标准差。
标准差:数据减去平均值求平方,再求和,除以数据个数,再开方。
数据分布
概率分布probability distribution
二项分布binomial distribution
正态分布normal distribution
抽样分布 sampling distribution
有这样一组历年一月份最高温度的数据
添加均值趋势折线图
选中数据
插入折线图
在图表上右键,选择数据
在弹出窗口中点击编辑
选择区域
添加频率分布
输好参数后记得是按ctrl+shift+回车,最后得到频率数据如下:
累积频率
编辑公式
k2=j2
编辑公式k2=j3+k2
鼠标放在如图所示的右下角,然后双击
自动生成如下数据
同时显示两组数据
在上面的散点图中右键,选择数据,点击添加
选择x轴和y轴数据