R语言的基本学习
例:某学校在体检时测得12名女学生的题中X1(千克)和胸围X2(厘米),试计算题中与胸围的均值与标准差。
在R软件的主窗口输入命令:
> #输入体重
> X1<-c(35,40,40,42,37,45,43,37,44,42,41,39)
> #计算体重的均值
> mean(X1)
[1] 40.41667
> #计算体重的标准差
> sd(X1)
[1] 3.028901
> #输入胸围数据
> X2<-c(60,74,64,71,72,68,78,66,70,65,73,75)
> #计算胸围的均值
> mean(X2)
[1] 69.66667
> #计算胸围的标准差
> sd(X2)
[1] 5.210712
在上述代码中,”#“号是说明语句字符,后面是说明语句。”<-“表示赋值,c()表示数组,X1<-c()表示将一组数据赋值给X1,mean()是求均值函数,sd()是求标准差的函数。
在R软件中,你可以通过保存工作空间的方法,将编写的代码保存在".RData"的文件里,也可以通过”新建脚本程序“的方法将代码保存在".R"为后缀的R脚本文件里。
如果要绘制散点图,则调用plot()函数。
> plot(X1,X2)
如果要绘制直方图,则调用hist()函数。
> hist(X1)
下面以”demo1.R“脚本文件为例,完成一个简单的线性回归模型计算。
#读取数据,第一行是文件头 ,并打印出数据
rt<-read.table("demo1.txt",header = TRUE)
print(rt)
#对重量(Weight)与高度(Height)做线性回归,计算结果放在变量lm.sol中
lm.sol<-lm(Weight~Height,data = rt)
#使用summary()函数显示详细内容
summary)
其中,Min是最小值,1Q是一分位数,Median是中位数,3Q是三分位数,Max是最大值,Estimate是估计值,S是标准差,t value是t值,Pr是一个衡量标准,Residual standard error表示残余标准差,Multiple R-squared表示相关系数的平方,Adjust R-squared表示调整相关系数,F-statistic表示F统计量,p-value表示p值。
在《每天一点数据分析——回归分析》中讲到过使用Excel“回归”分析工具生成了回归统计表、方差分析表、回归系数表,这里打印的相关数值和用Excel做回归分析得出的结果是一样的。这里再次简单回顾:
Multiple R:因变量Y与自变量X之间的相关系数绝对值,越接近1,相关性越高;
R Square:判定系数R^2(也称拟合优度或决定系数),即相关系数R的平方,R^2越接近1,表示回归模型拟合效果越好;
Adjusted R Square:调整判定系数Adjusted R^2,仅用于多重线性回归时才有意义,它用于衡量其他自变量后模型的拟合程度。
标准误差:其实应当是剩余标准差(Std. Error of the Estimate),在对多个回归模型比较拟合程度时,通常会比较剩余标准差,此值越小,说明拟合程度越好。这里的标准误差为526.41。
最终拟合的方程为:Y = 3.899X - 143.0269
以下是一些常用的R函数:
R语言帮助函数
R语言管理函数
R语言图像输出函数
R语言包的安装与使用
包是R函数、数据、预编译代码以一种定义完善的格式组成的集合,计算机上存储包的目录称为库,libPaths()函数可以是库所在的位置,library()函数可以显示库中有哪些包,而search()函数可以告诉你哪些包已加载并可使用。
有许多R函数可以用来管理包,比如in("gclus")安装gclus包,使用u()函数可以更新已经安装的包,使用in()函数可以查看已安装包的描述。
在R语言中,要使用某个包需要事先载入这个包。例如,要使用gclus包,执行library(gclus)即可。加入对包的使用不了解,可以使用命令help(package="package_name")查看包的详细帮助。