各位想学习R语言、机器学习、深度学习的朋友,想寻求相关方面资料的朋友,可以向我咨询。请文末留言。
R语言:免费、开源、使用广泛、简单易用、可视化效果好。
在美国以外的地区,使用R语言先运行Sys.setlocale("LC_ALL","C")语句,避免出现某些格式问题。
ls():查看当前面板变量名。
names(读取文件的存储名),如poll=read.csv(";), names(poll)
rm(变量名1,变量名2,……):移除变量1,变量2……
?函数名:查看函数的帮助的页面,如?sqrt
getwd():获取当前工作路径。
setwd(绝对路径):设置工作路径。
写.csv格式的文件:wri(目标变量,预保持的文件名.csv)
安装包:in(包名),如in("caTools")
使用包:library(包名),如library(caTools)
R语言中常见的几个基本函数:(以文件为例)
poll=read.csv(";)
str(poll):查看poll数据框的变量名,变量名类型,对象个数,变量个数。
summary(poll):查看poll数据框各变量的统计学量,sd(poll$age),age变量的方差。
重要:若数据有缺失值,用mean,sum,sd函数计算时要添加na.rm=TRUE,如mean(poll$ages,na.rm=TURE)。
mean(TRUE):1
mean(FALSE):0,若传入mean()函数的为TRUE,TRUE,FALSE,则输出为0.6666667,即计算TRUE的频率。
w():求最大值的下标;w()求最小值的小标。
subset(poll,age>60):提取poll数据框的子集,满足age>60的对象。
table(poll$Regions,na.rm=TRUE):统计poll变量各Region出现的频数。
table(poll$Sex, poll$Region):显示结果为矩阵形式,行代表poll$Sex,列代表poll$Region。
tapply(limited$In, limited$Smartphone, summary,na.rm=TRUE):第三个参数(summary,mean,sum……)作用于第一个参数,以第二个参数分类;表示以不同的limited$Smartphone分类,计算summary(limited$In)。
sort(tapply(CPS$MetroAreaCode), CPS$State, mean)):对tapply()的结果排序,相当于对CPS数据集的不同State变量,求MetroAreaCode为TRUE的平均值。
例sort(tapply(CPS$Country == "India", CPS$MetroArea, sum, na.rm=TRUE))
is.na(CPS$MetroAreaCode):在CPS$MetroAreaCode的缺失值处,返回TRUE,无缺失值返回FALSE。
重要:若数据有缺失值,用mean,sum,sd……函数计算时要添加na.rm=TRUE,如mean(poll$ages,na.rm=TURE)。
比较大小符号的使用情况:如poll$age>60,则返回值为TRUE与FALSE。as.numeric(poll$age>60)将TRUE与FALSE转换成1和0;常与mean()函数使用,如mean(poll$age>60)。
常见画图函数:
plot(X,Y,xlab=,ylab=,main=,col=,ylim=c(0,210)):横轴X,纵轴Y,col图像颜色,ylim为y轴范围,c(0,210)为vector;vector创建的方法为c("China","USA")。
如plot(CocaCola$Date[301:432], CocaCola$StockPrice[301:432], type="l", col="red", ylim=c(0,210))
lines(X,Y,col=):在上图的基础上新增其它数据的图。
如lines(ProcterGamble$Date, ProcterGamble$StockPrice, col="blue")
abline(v=as.Date(c("2000-03-01")), lwd=2) :在X为“2000-03-01"处添加垂直线,查看相应位置线的位置。
plot(CocaCola$Date[301:432], CocaCola$StockPrice[301:432],xlab = "Date",ylab = "StockPrice",type="l",main = "StockPrice VS date of Five Countires", col="red", ylim=c(0,210))
lines(ProcterGamble$Date[301:432], ProcterGamble$StockPrice[301:432], col="blue")
lines(IBM$Date[301:432], IBM$StockPrice[301:432], col="green")
lines(GE$Date[301:432], GE$StockPrice[301:432], col="purple")
lines(Boeing$Date[301:432], Boeing$StockPrice[301:432], col="orange")
abline(v=as.Date(c("2000-03-01")), lwd=2)
股价随时间的变化图
hist(CocaCola$Date[301:432],xlab=,main=,xlim=c(0,100),breaks=200):直方图,有利于理解数据的分布,"CocaCola$Date[301:432]"欲画图的数据,breaks矩形的个数,每个矩形的宽度=总宽度/breaks。
hist(poll$Age,xlab = "Age",ylab = "Frequency",main = "Histogram of Age",xlim = c(0,150),breaks = 10)
年龄直方图
boxplot(USDA$Sugar, ylab = "Sugar (g)", main = "Boxplot of Sugar"):盒图。
boxplot(Y~X):Y为纵轴,X为横轴。
boxplot(WHO$CellularSubscribers~WHO$Region,xlab="Region",ylab="Life Expectancy",main="Life Expectancy of Countries by Region")
LifeExpectancy和Region盒图
创建vector:A=c(2,3,4,5),A的下标从[1]开始,可认为创建的为列vector。
seq(0,100,2)序列:0,2,4,6,……,100。
创建dataframe:da(vector1,vector2,……)。
合并两个dataframe:rbind(dataframe1,dataframe2)。
Country = c("Brazil", "China", "India","Switzerland","USA")
LifeExpectancy = c(74,76,65,83,79)
dataframe1 = da(Country, LifeExpectancy)
dataframe1$Population = c(199000,1390000,1240000,7997,318000)
dataframe以Country,LifeExpectancy,Population为变量,在数据框的第一行,可使用生成.csv文件的如下命令wri(dataframe3,"da;)查看。
##
Country = c("Australia","Greece")
LifeExpectancy = c(82,81)
Population = c(23050,11125)
dataframe2 = da(Country, LifeExpectancy, Population)
##
dataframe3=rbind(dataframe1,dataframe2)
查看dataframe3中的变量,先读取文件df=read.csv(""da;"),再df["Country"],若df$Country则显示比较麻烦。
将两个数据框中的变量进行匹配:CPS = merge(CPS, MetroAreaMap, by.x="MetroAreaCode", by.y="Code", all.x=TRUE):其中MetroAreaCode来自于数据框CPS,Code来自于数据框MetroAreaMap,根据相应对象进行匹配;all.x=TRUE表示对CPS中相应的每一行都进行匹配。
将数据集中日期格式转换成R中的日期格式:
as.Date(strptime(日期变量,日期变量的格式))
如DateConvert = as.Date(strptime(mvt$Date, "%m/%d/%y %H:%M"));DateConvert[1]显示第一个时间。
或IBM$Date = as.Date(IBM$Date, "%m/%d/%y")
提取月份和周再为mvt新增两个变量:mvt$Month = months(DateConvert);mvt$Weekday = weekdays(DateConvert)。