克莱姆相关系数是衡量两个分类数据变量之间关联性强弱的指标,数值介于0到1之间。
数值越大,关联性越强。克莱姆相关系数的计算公式如下:
克莱姆相关系数的计算公式
结合例子讲解这个公式:
我们想要调查“性别”与“常用沟通方式”的关联关系,以下是调查的数据:
观测次数
这次的调查数据中,无论是性别还是沟通方式,都属于分类数据。要研究它们之间的关联关系,需要使用克莱姆相关系数。这里的34、61、53等就是观测次数。
首先,需要求出期望次数,期望次数 = 交叉合计数的乘积 / 总数。
期望次数
比如,要求出女性与打电话之间的期望次数,则应该是打电话的合计数乘以女性的合计数再除以整数,即(148 * 72)/ 300。原则上,再求解的过程中用分数表示求解结果,不要出现四舍五入的情况以免对最终结果产生影响。
其次,求出差异值,差异值的计算公式为:差异值 = (观测次数 - 期望次数)^2 / 观测次数
克莱姆相关系数
观测次数和期望次数的差异值越大,即“性别”和“常用沟通方式”之间的关联程度越强。
最后,将所有计算出来的差异值结果相加,即可得出整体的统计量(皮尔森的卡方统计量),最终结果为8.0091。现在再来看看那个计算公式。
其中X0^2 为皮尔森的卡方统计量,即8.0091, 数据个数为300。在这次的调查数据中,交叉资料表的函数为2(男、女),交叉资料表的列数为3(打电话、发短信、当面),min表述行、列取最小值。所以最后求解克莱姆相关系数的结果为:
克莱姆相关系数
最后总结一下:克莱姆相关系数的值介于0和1之间,两个分类数据的关联性越强,则克莱姆系数就会越接近1,反之,则会越接近0。