前面在《数据分析方法论及案例分享》中有提到回归分析,它主要用来探究:哪些维度会影响现状指标。
在数据量不大的情况下,我们可以直接用excel来进行回归分析。毕竟,相对于SPSS、Python来说,excel的获得和操作真的容易很多。
回归分析,分为线性回归、非线性回归。这次先以线性回归为例,分享一下如何用excel进行分析,以及如何解读分析结果。
【如何调出excel中的回归分析工具】
- 在工具栏的左上角,点击“文件”
点击文件
- 将左侧导航栏拉到底部,点击“选项”
点击选项
- 在弹出的面板上,点击“加载项”
点击加载项
- 在加载项面板上,点击“转到(G)”
点击转到
- 在可用加载宏列表中,勾选“分析工具库”,并点击“确定”
勾选分析工具库
- 回到第一步的工具栏,点击“数据”,在分析栏里就出现了“数据分析”工具
点击数据
【如何使用回归分析工具】
接下来,我通过一个具体的案例进行操作和解读。
1.导入要分析的数据列表,确定分析目的。
(1)数据列表的字段有“数据爬取时间”“销量排名”“价格”“评论条数”“评分”“时间”,这是从某个电商平台上每天爬取的商品相关数据(共547天):这个商品在547天中每天变化的销量排名、价格、评论条数、评分等数据。
商品相关数据
(2)本次回归主要想探究:价格、评论条数、评分、时间这些维度对销量排名的影响程度,哪些维度是真正有影响的因素;进一步找到预测未来变化的回归公式,即Y=β0+β1X。
2.点击“数据分析”,在弹出的面板上选择“回归”,并点击“确定”。
选择回归
3.在回归参数设置面板上,输入因变量Y,即“销量排名”;输入自变量X,即“价格”“评论条数”“评分”“时间”。因为我把列名也划进变量区域了,所以要勾选“标志(L)”。置信度一般默认95%。
设置参数
4.点击“确定”,就会生成如下分析结论:
分析结论
【如何解读线性回归分析结论】
从案例上看,excel共输出了三组结果,前两组是针对整体,即把所有自变量当作一个整体,第三组是针对个体,即每个自变量和因变量的关系。
解读分析结论
1.看整体
(1)R Square,即R2,表示因变量Y出现的变化,可以被所有自变量整体X解释的比例。在线性的情况下,R2的值越大越好。如上图所示,R2=0.4057,意味着有40.57%的“销量排名”变化可以被“价格”“评论条数”“评分”“时间”共同解释。因为列表中的数据只是样本,且自变量个数较多,所以看解释性可以用Adjusted R Square(矫正后的R2)。
扩展知识:R2=1-(RSS/TSS),RSS=e12+e22+e32+……+en2(取最小化的RSS),ei=真实样本的Y值-回归线的Y值,TSS=(真实样本的Y值-真实样本的Y的均值)2。
Adjusted R2=1-[(n-1)(1-R2)/(n-p-1)],n是样本数量,p是变量个数。
(2)F,表示因变量Y和所有自变量整体X的关联程度,越大越存在关联。但并不意味着Y跟任一X都有关联。
扩展知识:F=[(TSS-RSS)/p]/[RSS*(n-p-1)]
2.看个体
(1)P-value,越接近0,相关性越显著。如上图所示,价格、时间、评论条数、评分的P值都很接近0,说明每个自变量对销量排名都显著相关。
(2)t Stat,绝对值越大,相关性越显著。正负符号代表相关的方向。如上图所示,价格和评论条数的t值大于0,说明价格越高,评论条数越多,那么销量排名就越靠后;评分和时间的t值大于0,说明时间越久,评分越高,那么销量排名就越靠前。
3.预测未来变化的回归公式
这个案例的线性回归公式,结构应该是Y=β0+β1X价格+β2X评论条数+β3X评分+β4X时间。只要求出β系数的值,就能获得公式。
回归公式的β系数
Coefficients,表示系数列,其中Intercept是常数项系数,即β0;其余变量的系数,对照Coefficients值,可以自行对号入座。
【如何提升线性回归的解释性】
案例的Adjusted R2=40.14%,这个解释性并不强,其中一个原因是“销量排名”的数据变化并不是线性的,因为排名数据是相对的,而其他自变量数据都是绝对的。所以要提升解释性,可以先把几个变量转变成线性相关。
1.那么如何转变成线性相关呢?有个办法就是将所有变量自然对数化,在excel中就是使用ln函数。这样可以获得变量间的相对百分比变化,比如价格提高百分之一,销量排名变化了百分之几。
LN函数
2.用新的LN变量进行回归分析,操作步骤就不重复了,直接看分析结果:
提升解释性
我们发现LN后,Adjusted R2=53.54%,提升了10个百分点,说明自变量整体对因变量变化的解释性确实更强了。同时,评论条数的P值不再接近0,不再显著相关,说明评论条数增加,并不怎么影响销量排名。
以上是关于回归分析学习笔记的分享,在践行费曼学习法的同时,也希望能帮助对数据分析有兴趣的同学~