2013年以来,大数据在各种领域的应用正在爆炸式增加,Data Science是新兴专业,成为今年留学生选择的热点。那么,数据科学到底是什么?
基本信息
数据科学(Data Science,DS)将应用数学、统计、模式识别、机器学习、数据可视化、数据仓库和高性能计算的交叉学科结合在一起。
通过挖掘数据,处理数据,分析数据从而得到有用信息的技术和研究。主要学习内容为数据模型,数据处理,数据可视化。巨大的市场需求和人才缺口
据麦肯锡全球研究院的报告“Big data:The next frontier for innovation,competition,and productivity”说,“到2018年,能够利用大数据来分析业务和经营管理的人缺口巨大,仅美国就一地就缺少约14万到19万具有深度数据分析能力的人才,150万能利用大数据分析进行决策的管理人员。而且这类人才的短缺才刚刚开始,基础设施建设的有效性、激烈竞争催生的持续创新、公共安全领域对大数据利用的渴求等等都将加大大数据分析人才缺口。”
专业介绍
数据科学专业分为三个分支:Analytics(数据分析),Business AnalytiCS(商业分析),and Data Science(数据科学)。2007年美国北卡州立大学Institute for Advanced Analytics设立了第1个相关硕士项目--M.S. in Analytics。以此为始,数据分析成为大学里的一个新型专业。该专业诞生伊始就具有很强的交叉学科的特性,融合了应用数学、统计学、计算机科学与技术以及商科各个领域的知识。其中,Business Analytics这一分支一般开设于商学院,与Science of Analytics近似的Data Science 则兴起于2013年以后。
自2013年以来,开设此类专业硕士项目的学校呈现爆发式增长。截止2017年,已经有175所美国高校提供该类专业的硕士项目(含在线项目)。从该专业的全美分布图可以看出,经济越发达,商业越发达的地区,该专业的分布越密集。
和数据科学相关的4个硕士学位
数据科学硕士:M.S. in Data Science
学习内容:以数学课程和统计课程为核心,搭配以编程技能课程,包括数据架构,计算机工程等
商业分析硕士:M.S. in Business Analytics
学习内容:专职于数学应用,研究消费者,市场和世界经济趋势,以数据驱动决策为核心
信息系统硕士:M.S. in Information Systems
学习内容:基于现成的计算机架构,语言和系统进行信息收集,组织和整合,通常面对商业环境中的技术管理岗位
统筹学和相关工程学科:M.S. in Operations Research
学习内容:采用数学建模,统计分析和数学优化,运用研究来为复杂的决策问题找到最优的解决方案,关注目标利润,收益最大化,或最小化损失,风险成本等
排名靠前的学校
斯坦福大学(Stanford University)
统计硕士(Master of Science in Statistics)专业分支:数据科学 (Data Science)
所属学院:人文与科学学院,统计系
地点:斯坦福,加州
学制:1-2年
斯坦福的大名就不赘述了,其统计数据科学项目是统计系和计算与数学工程学院联合创办的,主要训练学生在数据科学中的计算能力。
哈佛大学(Harvard University)
计算科学与工程硕士(MS in Computational Science and Engineering)
所属学院:工程和应用科学学院
地点:剑桥,麻省
学制:1年
该项目严格训练一个人在CSE中的数学和计算机能力,获得高效智能解决问题并确定选择等8项技能。核心课程包括高级科学计算:计算方法、计算科学基础、计算科学系统发展等
加州大学伯克利分校(University of California,Berkeley)
两个相关的学位项目:
·数据科学工程硕士Master of Engineering (concentration in Data Science)
·信息与数据科学硕士Master of Information and Data Science (MIDS)
所属学院:工程学院和信息学院
地点:伯克利,加州
学制:12-20个月
伯克利的两个硕士项目综合教授技术和企业运营的技能,立足现有最前沿的技术,扎实务实地培养学生成为领域内的佼佼者。
卡内基梅隆大学(Carnegie Mellon University)
·数据科学硕士(Master of Computational Data Science)
·管理信息系统硕士(Master of Information Systems Management) 专业分支:商务智能和数据分析(Business Intelligence and Data Analytics)
所属学院:Heinz学院
地点:匹兹堡,宾夕法尼亚州
学制:16个月
卡内基梅隆大学的计算机科学专业排名在全美数一数二,与斯坦福、麻省理工起名,其数据分析与处理技术也名列前茅。本校的硕士项目有三个核心方向可供学生选择:商务智能数据分析信息技术项目培养的目标是要培养学生跨领域具备商业处理分析与预期建模、GIS地理信息定位与分析、分析报告、市场细分分析、数据可视化。卡梅全球顶尖的实验室也为学生提供了绝好的学习与实践机会,并且有固定的企业实习项目,为就业做了充足的准备。
哥伦比亚大学(Columbia University)
数据科学硕士(Master of Science in Data Science)
所属学院:Data Science Institute
地点:纽约
学制:2年
哥伦比亚大学的大数据科学与工程研究室(Institute for Data Sciences and Engineering)
康奈尔大学(Cornell University)
运筹与信息工程硕士M.Eng. in Operations Research and Information Engineering
专业分支:数据分析 Data Analytics
学院:运筹学与信息工程学院
地点:伊顿/纽约;纽约州
学制:1-1.5年
纽约大学(New York University)
数据科学硕士 Master of Science in Data Science
学院:数据科学中心Center for Data Science
地点:纽约市
学制:2年
南加州大学(University of South California)
计算机科学硕士 Master of Science in Computer Science
专业分支:数据科学Data Science
学院:工程学院
地点:洛杉矶,加州
该项目是南加大计算机科学硕士的分支,主要目标是帮助学生建立计算机、分析等多样化背景,以使学生更好的解决现实世界中关于能源、环境、健康、传媒、医学、交通等问题。
西北大学(Northwestern University)
分析科学硕士(Master of Science in Analytics)
地点:伊凡斯顿(Evanston),伊利诺伊州
学院:McCormick工程与应用科学学院
学制:15个月
该项目成立于2012年,融合了数学、统计、高端IT和数据分析的教学和研究内容,除了正常的授课外,学生还需要完成两个行业实习和一个课程设计。
弗吉尼亚大学(University of Virginia)
数据科学硕士 Master of Science in Data Science
学院:数据科学研究所(Data Science Institute)
地点:Charlottesville,弗吉尼亚州
学制:11个月
弗吉尼亚大学的数据科学硕士项目致力于为政府和企业培养大数据处理的人才,每年7月份开课,次年5月份结课。课程由计算机系、统计系、系统与信息工程系联合授课攻读本项目需要一些先修课程:
·单变量积分 Single variable calculus
·线性代数 Linear algebra or matrix algebra
·统计学导论 An introductory statistics course
·计算机编程导论 An introductory programming course
申请Data Science需要什么样背景
不论是国内还是美国本土,本科就开设Data Science这个专业的学校并不多,所以大家不要一看自己专业名字和数据科学不搭边就觉得是转专业申请。
首先,学CS的同学显然是可以申请的,因为大多数数据工作都是通过编程和数据库的相关手段进行的;学统计或者应数,且有一定编程基础的同学也可以申请;商科出身,尤其是量化背景较强的商科专业,比如金工,但又希望能选择一个STEM专业的小伙伴,那DS显然也是个非常好的选择。
所以说,如果你有比较强的编程背景,又有比较好的数理基础那你就很有竞争力;而纯商科背景的小伙伴则可以选择Data Science(DS)和Business Analytics(BA)同时申请,后者更偏商科更加Match一些。
怎么提升背景
本身背景不太强或者不太匹配,有什么办法可以使自己变得更有竞争力么?对于DS这个专业来说一般来说有以下几个途径:
·科研:科研的话,最好找和量化相关的,如果实在没有,可以把相关的课程大作业(project)拿来用。再退而求其次,也可以是 CS 相关,但切记没有科研经历,那将是极大地硬伤。
·竞赛:竞赛的平台有很多,比如最近很火的Kaggle,再如阿里的天池、SODA、WID、数据嗨客等。
·实习:实习的话最优选择当然是数据公司的数据岗,然而现实是这样的岗位由于太过重要,基本不会招实习生。所以天津立思辰留学老师建议找一些统计量化相关的或者计算机相关的实习。
就业情况
该专业的主要就业岗位有更行业的分析师、咨询顾问、数据科学家及经营管理者。
该专业的毕业生(硕士)普遍起薪(年)都超过8万美金。同时,该专业起薪不太受毕业前的工作经验的影响。一个读该硕士之前有三年工作经验的毕业生的薪水与完全无工作经验的毕业生的薪水相差很小。
机器学习工程师 Machine Learning Engineer
代表了技术含量较高的方向,工作内容主要是开发机器学习系统和用这些系统解决实际问题。做出来的是数据产品。
数据分析员 Data Analyst
工作内容俗称analytics (product analytics or business analytics),从数据中提取insight,估计投资回报比,为产品方向提建议,所用工具一般较基础,比如写SQL query取数据、用R/Python做简单的分析、用Tableau/Excel作图比较常见,能自己开发Dashboard算是analyst里面技术强的;工作需要产生各种形式的报告 。一般由统计、数据科学、商务分析、工业工程等专业的硕士担任。
数据科学家 Data Scientist
很多人说,我想做数据产品,我想做机器学习,而这类职位就是大家想象中的那种。此类职位工作内容以高级建模为主,会针对复杂的问题来设计技术方案,比如Uber叫车的ETA、各种定价系统、Airbnb和金融行业的Fraud Detection、Amazon物流管理,FB/Linkedin的社交网络或者ebay/Airbnb/Uber这样供需双方Marketplace市场规模的实验。这些例子,都需要比较深的领域知识。一般是统计、运筹、经济、工业工程、EE、CS等专业的博士担任,需要某领域的深刻理解。
三个职业方向的对比
从工资收入高低来看,1和3都很高,2要低一些,尤其是非IT行业,工资明显低很多,工作地点如果也不是热门地区的话,可能只有1和3的一半。
从工作机会多少来看,对1的需求很高,今后几年内也会保持;2散布在各个行业,加起来也不少;3其实是少数派,职位很少,往往只有大公司才需要,中小型公司可能不需要,即使需要的话,有少数几个人也就够了。
从读什么专业、拿什么学位角度来看,1包含“会一些ML的软件工程师”和“会写生产代码的机器学习专家”两种,也就是说,侧重点会有差异,但是机器学习和软件开发技能都需要。有EE或者CS博士学位最佳,统计等计量学科博士,如果辅修了CS master,也合适。如果只有EE/CS硕士学位也可以,但是硕士生们需要额外自学很多机器学习知识才能胜任,只靠在学校里简单上一两门课,可能不够。此外,找工作的时候,也需要一些运气成分才能找到合适的岗位。
常规申请要求
一般均要求申请者有较好的数学或者统计学功底,或者修过数学/统计学课程。基本不要求工作经验,Business Analytics也不要求有商科背景。需要有编程经验,某些学校会特别指出需要懂某类编程语言,比如Pyton,因为上课和作业都需要用到。
该专业一般属于STEM项目,可以延长OPT。该专业硕士项目属于就业导向的,所以学制一般较短,平均为一年左右,较短的如University of Texas-Austin-Business Analytics只有10月的学期长。
推荐基础学习路径(以数据分析为例)
Excel
了解各种函数,如sum,count,sumif, countif,find,if,left/right,时间转换等,学习vlookup和数据透视表两个性价比很高的技巧。
数据可视化
数据分析界有一句经典名言,字不如表,表不如图。数据分析的最终都是要兜售自己的观点和结论的,兜售的最好方式就是做出观点清晰数据详实的PPT给老板看,虽然Excel也可以完成很多的数据可视化功能,但是如果想要得到更专业的可视化效果,还是建议学些编程方面的知识。
数据库
Excel对十万条以内的数据处理起来没有问题,但是互联网行业就是不缺数据。但凡产品有一点规模,数据都是百万起,这时候就需要学习数据库。SQL是数据分析的核心技能之一,从Excel到SQL绝对是数据处理效率的一大进步,除了最基本的增删改查、索引、约束外,主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等。
R/Python语
是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘,爬虫,可视化报表都需要用到编程能力。而数据分析领域推荐使用的两种语言绝对是R和Python了,二者在数据分析领域的地位可以说是旗鼓相当,各有优势。
R的优点是统计学家编写的,如果是各类统计函数的调用,绘图,分析的前验性论证,R无疑有优势。学习R,需要了解数据结构(matrix,array,da,list等)、数据读取,图形绘制(ggplot2)、数据操作、统计函数(mean,median,sd,var,scale等);开发环境建议使用Rstudio,Python则是万能的胶水语言,适用性强,有很多分支,我们专注数据分析这块。需要了解调用包、函数、数据类型(list,tuple,dict),条件判断,迭代等;开发环境建议Anaconda。
统计知识
统计学是数据分析的基础。需要花一些时间掌握描述性统计知识,包括:均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。
分析思维
好的数据分析首先要有结构化的思维,也就是我们俗称的金字塔思维。思维导图是必备的工具;之后再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。
业务知识(用户行为、产品、运营)
对于数据分析师来说,业务其实比了解数据方法论更重要。但很遗憾,业务学习没有捷径,必须靠你在某个行业自己一点点积累。当然,在你正式从事某个行业之前,你可以在网上找一些相关业务方面的项目自己动手进行实践练习。