您的位置 首页 > 潮流时尚

【相关系数r】用R语言做数据分析——二元数据的相关性检验

对于二进制数据

可以计算样品的相关系数Rxy。假设样品来自全部(X,Y),则总体相关系数为:

那么样本的相关系数与整体相关系数有什么关系呢?

如果样本数N足够大,则Rxy可以用作p(X,Y)的估计值。也就是说,样品数大,样品相关,整体相关。

但当样本个数较小时,就无法得到相应的结论。现在的问题是:当样本个数n至少取到多少时,样本相关才能保证总体也相关呢?

Ruben(鲁宾)给出了总体相关系数的区间估计的近似逼近函数,设n是样本个数,r是样本相关系数,μ是标准正态分布的上α/2分位点,即μ=Zα/2,则计算:

求方程ay^2-2by+c=0的根

则1-α的双侧置信区间为:

按照公式编写出"ruben.R"的脚本程序:

ruben.test<-function(n,r,alpha=0.05){

u<-qnorm(1-alpha/2)

r_start<-r/sqrt(1-r^2)

a<-2*n-3-u^2

b<-r_start*sqrt((2*n-3)*(2*n-5))

c<-(2*n-5-u^2)*r_start^2-2*u^2

y1<-(b-sqrt(b^2-a*c))/a

y2<-(b+sqrt(b^2-a*c))/a

da(n=n,r=r,conf=1-alpha,L=y1/sqrt(1+y1^2),U=y2/sqrt(1+y2^2))

}

当n=6,r=0.8时,调入已编写好的ruben.R的函数,并计算得到:

> source("ruben.R")

> ruben.test(6,0.8)

n r conf L U

1 6 0.8 0.95 -0.09503772 0.9727884

置信区间为),去置信下界是负数,即是r=0.8,也不能说明总体I相关的。

当n=25,r=0.7时,计算并得到:

> ruben.test(25,0.7)

n r conf L U

1 25 0.7 0.95 0.4108176 0.8535657

置信区间为),此时,基本上能说总体是相关的。

关于置信区间的近似逼近方法还有David(大卫)提出 的图表方法,Kendall(肯德尔)和Stuart(斯图亚特)提出的Fisher逼近方法。

确认总司是否相关最有效的方法是作总体(X,Y)^T的相关性检验。当(X,Y)^T是二元正态总体,且p(X,Y)=0,则统计量

服从自由度为n=2的t分布。

利用统计量t服从自由度为n=2的t分布的性质,可以对数据X和Y的相关性进行检验,由于相关系数Rxy被称为Pearson(皮尔森)相关系数,因此,此检验方法也被称为Pearson相关性检验。对于相关性检验,还有Spearman秩检验和Kendall秩检验。R语言中国,cor.test()函数提供了上述三种检验方法,其使用方法为:

其中x,y是数据长度相同的向量,alternative是备择假设(《每天一点统计学——假设检验概论》),缺省值为”“,method是选择的检验方法,缺省值为Pearson检验。conf.level是置信区间水平,缺省值为0.95。

cor.test()函数还有另一种使用格式:

其中formula是公式,data是数据框,subset是可选择向量,表示观察值的子集。

> x<-c(67,54,72,64,39,22,58,43,46,34)

> y<-c(24,15,23,19,16,11,20,16,17,13)

> ore<-da(x,y)

> attach(ore)

> cor.test(x,y)

Pearson's product-moment correlation

data: x and y

t = 6.6518, df = 8, p-value = 0.0001605

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.6910290 0.9813009

sample estimates:

cor

0.9202595

其中p值为0.0001605<0.05,拒绝原假设,认为X与Y相关。计算得出的置信区间为),从这点上也可以看出X与Y是相关的。

另外还可用下面两种方法检验相关性。

> cor.test(x,y,method = "spearman")

> cor.test(x,y,method = "kendall")

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

推荐阅读