在进行数据分析时,通常分析的总体数据太大,系统分析的操作效率可能会大大降低,因此,为了分析,提取出一部分代表性的样本数据,根据这部分样本进行总体情况估计和推断。
这种方法被称为抽样分析方法。抽样分析方法是利用已知的有效样本去估计未知的庞大总体,之前提到过抽样分布,现在结合Excel中的“抽样”分析工具来进一步讲解。抽样分析
“抽样”分析工具既可以实现随机抽取数据,也可以实现周期性间隔抽取数据。我们以“用户消费数据”为例来学习这两种数据抽样方法。
例子:公司市场部为刺激客户消费,提升产品销量,经常会策划一些市场优惠活动,其中需要我们随机或有规律地抽取一些在活动中进行交易的客户作为幸运客户,以发放相应的奖品,这时应该如何处理呢?
1、在【数据】选项卡中选择【抽样】,在弹出的对话框中进行相关设置,可以选择周期间隔,也可以选择随机抽样;
2、选择的抽样方法不同,生成的结果也不一样。周期抽样需要设置间隔次数,而随机抽样需要设置样本数。
相关分析
做数据分析,不仅要描述数据本身呈现出来的基本特征,有时候 还有进一步挖掘变量深层次的关系,为后期模型的建立及预测做准备。在统计学中,这种深层次的关系分为相关关系和回归函数关系两大类。
相关关系。相关关系是指现象之间存在的非严格的、不确定的依存关系。这种依存关系的特点是:某一现象在数量上发生的变化会影响另一现象数量上的变化,而且这种变化具有一定的随机性,即当给定某一现象以一个数值时,另一个现象会有若干个数值与之对应,并且总是遵循一定规律,围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。
回归函数关系。回归函数关系是指现象之间存在的依存关系中,对于某一变量的每一个数值,都有另一变量值与之相对应,并且这种依存关系可用一个数学表达式反映出来。
相关分析是研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多重相关用复相关系数表示。其中我们常用的是直线相关,所以主要研究相关系数。
相关系数
相关系数就是反映变量之间线性相关程度的一个度量指标,通常用r表示,它的取值范围为[-1,1]。r>0时表示线性正相关;r<0时表示线性负相关;r的大小可以反映相关的程度,r=0表示两个变量之间不存在线性关系。
我们以“企业季度数据”为例,使用Excel"相关系数"分析工具来实现,来分析“销售额”、“推广费用”及“其他费用”这三个变量件的相关关系。
1、在【数据】选项卡中选择【相关系数】,在弹出的对话框中进行相关设置;
2、生成结果如下:
生成的结果与输入区域选择的数据集有关,如果只选择销售额与推广费用的数据集,则生成销售额与推广费用之间的相关系数的2*2矩阵;如果选择的是销售额、推广费用与其他费用的数据集,则生成这三个变量之间相关系数的3*3矩阵。