高速发展的数据社会,科技的加速,信息高速流通,人与人之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
马云在多次演讲中就提到,未来的时代将不是IT时代,而是DT的时代。DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重地位。R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。
什么样的数据算是大数据?
数据的最小基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。都是按照进率1024来计算的。大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量; 百度首页导航每天需要提供的数据超过1.5PB,这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
R语言简介
R是一个免费的软件环境统计计算和图形。R的语法是来自Scheme。R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。R主要是以命令行操作,也有人开发了图形用户界面。R内置多种统计学及数字分析功能。R的功能也可以通过安装包(Packages,用户撰写的功能)增强。R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。R主要用于统计分析或者开发统计相关的软件,但也有人用作矩阵计算。
R语言:
多重编程范式:面向对象、指令式、函数、程序、反射
设计者:罗斯·伊哈卡和罗伯特·杰特曼
罗伯特·杰特曼
实现者:R核心开发小组
发行时间:1993年
最新发行时间:3.3.3(2017年3月6日)
操作系统:跨平台
R语言的优缺点
优点:
1、免费开源,上手快
2、专门为统计和数据分析开发的语言
3、软件包生态系统与图表优势
缺点:
1、数据量足够大,内存要爆掉
2、package的质量实在参差不齐
3、慢、慢、慢,即时编译相当于C语言的1/10
总结:
R语言已经成为统计领域最具人气的语言选项,随着时间的推移,越来越多来自其它领域的用户也被吸引到了R身边来。另外野鸡的包不要用,不要用,不要用。