要想成为数据科学家,你将面临一个艰巨的挑战。不仅要掌握机器学习等技术,还要学会商业分析。但是,回报也是丰厚的。此外,你还会解决许多有趣的问题,可以掌握新的、有影响力的技术。本文分享了63个免费的数据科学学习资源,这些资源专门为初学者而准备。
目录如下:
1. 基本的技能
1.1 程序设计和数据交换
1.2 统计和概率
2. 技术技能
2.1 数据收集
2.2 SQL
2.3 数据可视化
2.4 应用机器学习
3. 商业技能
3.1 沟通
3.2 创意与创新
3.3 业务运作与策略
3.4 业务分析
4. 辅助技能
4.1 自然语言处理(NLP)
4.2 推荐系统
4.3 时间序列分析
5. 实践
一些工作可能还需要其他技能,例如:深度学习、大数据、优化、异常检测、图形和网络模型、定量金融、研究领导、项目管理、产品设计、软件工程、空间数据分析等。
本文只介绍行业中最常见的技能。
1. 基本的技能
基础技能构成了真正理解的基础,反过来还能让你发现新的解决方案,建立更精确的模型,做出更好的决定。
1.1 程序设计和数据交换
首先,您需要了解至少一种脚本语言,足以支持使用数据集、原型模型,并执行分析。
强烈建议在Python或R之间选择,因为它们都是开源的(免费的),被广泛采用,并且由活动社区支持。它们都有自己的长处,但建议一开始就选一个。
Python在软件初创企业、大型科技公司和adTech中更为常见。因为是一种通用编程语言,所以Python往往更灵活。对深度学习和数据处理也有好处。
R / RStudio在研究、金融和分析方面很受欢迎。R语言是一种统计编程语言,它为计量经济学、统计学和机器学习提供了成熟的库。
如果你还在犹豫,建议从Python开始,因为它更适合初学者。
Python资源:
《Learn Python the Hard Way》(在线书籍):推荐给那些想要用Python编程完成课程的初学者。
链接:
LearnPy(交互式教程):为那些只需要快速获取Python语法的人提供的简短的交互式教程。
链接:http://www.learnpy/
《How to Think Like a Computer Scientist》(交互式书籍):交互式的“CS 101”课程,用Python讲授,真正专注于解决问题。
链接:http://interactivepy/runestone/static/thinkcspy/index.html
Py(在线难题):有33个级别的有趣的题,你可以用Python编程来解决。
链接:
如何学习数据科学的Python,自学方式:详细地介绍了一些资源。
链接:
R / RStudio资源:
《R for Data Science》(在线书籍):推荐给那些想要完整的数据科学课程的初学者。
链接:
Swirl (交互式R包):非常酷的R包,你可以直接从RStudio(用于运行R语言的最常见的接口)中安装和学习语言。
链接:
用R语言介绍数据科学(视频系列):帮助那些通过观察别人而学得更好的人进阶。
链接:;list=PLTJTBoU5HOCRrTs3cJK-PbHM39cwCU0PF&index=1
1.2 统计和概率
强大的统计基础可以帮助你全面理解机器学习、条件概率、A / B测试以及许多其他核心技能。它还能帮助你“像数据科学家一样思考”,其中包括发现视觉偏差,有效地迭代预测模型,以及如何从数据中获取真知灼见。
此外,学习常见的概率分布(特别是高斯、二项、均匀、指数、泊松分布)对于实现许多实际应用程序非常重要,例如,multi-armed bandits、市场篮子分析和异常检测程序。
统计和概率(可汗学院):可汗学院统计和概率的实际介绍。建议加速学习。
链接:
哈佛统计110:概率(视频系列):哈佛大学概率论。建议更深入地掌握。
链接:
程序员的概率和统计 (PDF):对那些有编程背景的人来说是非常好的资源。引用:“这本书的主题是,如果你知道如何编程,你就可以使用这种技能来辅助理解概率和统计。”
链接:
基础统计的速成课程(PDF):简短的PDF,涵盖了对关键主题的快速回顾。这个复习表对每个概念都有简单的直观解释。
链接:
如何学习数据科学的统计,自学方式:这份指南更详细地介绍了一些资源。
链接:
2. 技术技能
数据科学要把原始数据转换成洞见、预测、软件等。因此,你需要游刃有余地处理数据。
核心技术技能包括:收集、清理、管理和可视化数据,以及使用机器学习的强大助力。
2.1 数据收集
一切都取决于你的数据的质量和数量。就像化学家需要正确的化学物质一样,你也需要相关的数据。
收集数据有四种常用方法:
1.内部数据。这是公司通过业务,或通过与其他提供商的伙伴关系来收集的专有数据。这通常是最相关的数据。
2.在线搜索。需要一个有标签的800万个视频的数据集吗?这里有一份资源。说真的,你会对在那里发现的东西感到惊讶。在线数据集允许你在投入精力到专有数据之前,进行原型设计。
链接:
3.API。API允许你以编程方式(合法的方式)访问其他公司收集的数据集。你可以从Twitter获取天气数据或财务数据。
4.Web抓取。Web爬行和抓取是一个强大的工具,你必须负责任地使用。它开启了一个全新的世界,但一定要尊重服务条款。
API资源:
Python 请求快速启动指南(教程):如何使用requests库来请求来自API的数据。
链接:
R httr Quickstart指南(教程):如何使用httr库请求API的数据。
链接:
Web抓取资源:
R rvest(教程):rvest库的基本web抓取。
链接:
Python Web抓取库:对Python Web抓取风景的概述。
链接:
2.2. SQL
SQL是数据库管理和查询的通用语言,你应该能够编写复杂的查询。学习SQL还可以更好地理解关系数据(即“表”格式中的数据),这将提高任何语言的数据分析技能。
可汗学院的SQL简介(课程):涵盖每个重要的SQL主题的全面的视频系列。
链接:
(交互式教程):快速速成课或用于复习。
链接:http://www./
SQL基础(课程):涵盖SQL基础的课程,包括一些测验。
链接:
2.3 数据可视化
数据可视化对于探索性分析和交流见解非常重要,如果没有这个主题,就没有任何数据科学的资源是完整的。原始数据可能很难解释,因此你需要研究一些趋势、分布和图表。
Python中的数据可视化(视频系列):使用Python中的matplotlib库的教程。
链接:;list=PLQVvvaa0QuDfefDfXb9Yf0la1fPDKluPF
R的数据可视化(视频系列):使用ggplot库的教程。
链接:;list=PLDWCGvw0A7lU_2Il8sMwI6_ZFV7EnuyVq&index=1
Python的Seaborn教程:适合初学者的Python的Seaborn库教程。
链接:
2.4 应用机器学习
机器学习是一个广泛的、包含许多子任务的术语。简单地说,就是教计算机如何从数据中学习模式和模型。
机器学习是一个强大的工具集,它是这份资源中最重要的技能。
《An Introduction to Statistical Learning in R》:一本比较经典的教科书。
链接:
如何学习机器学习,自学方式:适合初学者了解的机器学习简略的概述。
链接:
现代机器学习算法:优点和缺点。
链接:
3. 商业技能
在数据科学课程中,商业技能和软技能有时被忽视,但它们是极其重要的,雇主们也会留意这方面。
数据科学从来没有在真空中进行。你需要预见商业需求,创造性地思考解决方案,并清晰地表达你的见解。
随着机器学习库的成熟和算法的易于使用,企业开始重视既能与数据打交道,又能与人合作的人。这部分的数据科学资源将帮助你脱颖而出。
3.1 沟通
如果一棵树倒在森林里,但没有人听见,它真的发出声音了吗?如果只会分析数据,不会解释结果,那数据真的很重要吗?
有效的沟通技巧普遍存在,但数据科学家还面临与人讨论高新技术或数学话题的挑战。在数据科学家面试时,你经常被要求“向外行人解释技术概念”或“描述以前从事的项目”。雇主希望寻找谈话清晰、简洁和组织语言能力强的人。
你曾经看过的最好的数据(TED Talk):这是一个标志性的TED谈话,附带有趣的数据展示。
链接:
快速思考,聪明对话(视频):这是斯坦福大学商学院的一个研讨会,解决焦虑和自顾自说话的问题。这不仅有助于你的职场交际,还可以让你在面试中脱颖而出。
链接:
改善沟通的7个技巧(视频):简单、实用的技巧,如何有效地沟通每一天。
链接:
《How to Win Friends and Influence People》(PDF)(免费Audiobook版本):这是一本书,建议任何人都可以读。虽然一些言论有点过时,但人际关系的教诲是永恒的。
链接:http://images.kw.com/docs/2/1/2/212345/1285134779158_htwfaip.pdf
向朋友教授技术概念 :这将帮助你巩固对概念的理解,同时获得有价值的沟通实践。尝试解释一个有趣的机器学习算法,包括其优点、缺点和适当的用例。
描述你已完成的项目:这将有助于你将数据科学的许多碎片工作组织成系统的叙述。
3.2 创意与创新
数据科学家需要建立新产品,进行复杂的分析,并发明有价值的数据使用方法。
其实数据科学家很少解决重复性的问题。即使你可以将相同的方法应用于相似的数据集,在功能工程、补充数据和业务影响方面也要有创意。
当你获得更多经验时,自然会成为一名更好的创意思维者,以下资源可以帮助你快速开启解决问题和创新技巧的能力。
机器情报和数据产品(视频):数据产品和数据科学的未来展望。
链接:
机器情报景观(图表):风险资本家对机器情报应用景观的看法。
链接:
创新艺术(TED Talk):由Guy Kawasaki创作的伟大的TED演讲。
链接:
创意思维的七个步骤(TED Talk):从一个艺术家和企业家的角度看创造性思维技巧。
链接:
为解决问题的后续工作(TED Talk):国际象棋大师莫里斯·阿什利如何看到残局和后续工作。
链接:
3.3 业务运作与策略
这是一个问题,你应该每天问自己:“有什么方法可以改善这个业务?”在一天结束时,公司不会雇用你来分析数据,他们雇用你帮助他们成长,或变得更有利可图。这意味着你应该了解数据如何帮助做出更好的决策,并构建更好的产品。
数据驱动决策(视频):如何实现业务目标,从中提取可测试的假设,然后设计实验进行评估。
链接:
DJ Patil如何实现数字驱动,构建优质产品(视频):DJ Patil担任美国首席数据科学家之前的课程。
链接:
大数据,Hal Varian的计算经济学新技巧(PDF): Google首席经济学家Hal Varian
对数据分析的技术和方法学观点进行了很好的概述。
链接:
数据如何转变成业务(TED Talk):企业战略与技术之间的关系的深入讨论。解释为什么两大经营策略理论由于大数据的兴起而失效。
链接:
Victor Cheng的案例采访研讨会(视频系列):有些雇主在面试期间想问咨询式的“案例”问题,这是一个很好的处理案例面试的速成课程。
链接:;index=1&list=PL8b_fmdDHHyCznYmSeWJrdrJN4UJhUrsh
3.4 业务分析
业务分析技能对于数据科学家的运营角色至关重要。由于编程语言的灵活性,Python和R语言将允许你执行比Excel更复杂的分析。
在你掌握技术工具后,建立强大的领域知识将会带来更大的业务影响。
业务分析简介(视频): 简单介绍企业如何使用分析,包括案例研究。
链接:
营销指标和分析(视频):在营销中使用的常用指标和分析方法简介。
链接:
使用市场篮子分析有效地进行交叉销售(教程):如何做更聪明的交叉销售。
链接:
A / B测试的直观指南(视频) :A / B测试概述和具体解释。
链接:
25个业务KPI示例:以下是业务关键绩效指标(KPI)的25个示例。
链接:
Google 的分析学院(课程):数字分析、电子商务分析和其他主题的实践课程。
链接:
4. 辅助技能
辅助技能根据角色的不同而有所不同,但是它们帮助你成为一个全面的数据科学家。这里是NLP、推荐系统和时间序列分析的数据科学资源。
4.1 自然语言处理(NLP)
自然语言处理(NLP)或文本挖掘是机器学习中一个令人兴奋的子领域,从文本中提取结构、语法和见解。
著名的应用包括情绪分析、文章分类,甚至教一个神经网络来写莎士比亚戏剧。
链接:
斯坦福大学NLP课程(视频系列):“传统”自然语言处理的完整课程,包括情感分析、朴素的贝叶斯模型、 n-grams等。
链接:;list=PLiNErZ5Bus8qNxNsFZFkh-9_CzZRW9iH9
CS224D(课程):对自然语言处理的深入学习,理论介绍。
链接:;list=PLcGUo322oqu9n4i0X3cRJgKyVy7OkDdoi&index=1
Python NLP库:对NLP的Python库的概述。如果你有基本的编程技巧,对应用机器学习有扎实的理解,就可以直接跳到这里。
链接:
4.2. 推荐系统
推荐系统或协作式过滤器是数据科学的成功范例之一,尤其在电子商务领域。
它们为许多令人惊叹的网站和应用提供了动力,包括亚马逊、Yelp、Netflix和Spotify。简而言之,推荐系统可以找到与你有相似品味的其他用户,为你提供更好的推荐,通过改善用户体验来提高收入。
推荐引擎教程(视频系列):使用Python介绍协作过滤器。在解释算法背后的直觉方面做得很好。
链接:;list=PLseNcwx1RJ4WdgtrMTXndw4B4nlf4-pgS
推荐系统(视频系列):吴恩达的合作过滤器背后的理论和数学的讨论。如果你有一些线性代数的学习背景会更容易理解。
链接:;list=PLnnr1O8OWc6ZYcnoNWQignIiP5RRtu3aS
协同过滤与Python(教程):参考教程,实现了Python中的音乐推荐功能的系统。
链接:
协同过滤与R(教程):与前一个相同的教程,本次使用R语言。
链接:
4.3 时间序列分析
时间序列分析处理与时间有关的数据序列。例如,股票价格、降水量和推特标签按小时计算都是时间序列。时间序列分析通常用于财务、预测和计量经济学。
虽然许多机器学习处理的是“横断面数据”(数据不考虑时间的差异),但也有专门设计用于处理时间序列的模型。
时间序列(课程材料):课堂幻灯片、作业,以及俄勒冈州立大学时间系列课程的R语言代码。
链接:
《The Little Book of R for Time Series》 (在线书籍):非常实际的介绍,用R语言进行时间序列分析。包括每个步骤的代码和输出。
链接:
使用Python的时间序列预测 (教程):使用Python执行时间序列可视化、分析和预测。
链接:
ARIMA与Python(教程):在Python中介绍ARIMA模型。包括所有的代码。
链接:
《Statistical forecasting, Fuqua School of Business》 (在线书籍):杜克大学福库商学院的统计预测课程的课程笔记。
链接:
5. 实践
实践项目有两个主要目的:第一,帮助你巩固概念和实践,将数据科学的所有碎片化知识整合在一起。第二,提供一些案例给雇主看。
下面是一些可以找到项目想法的地方:
为初学者提供的6个有趣的机器学习项目。
链接:
预测泰坦尼克号的生存(Kaggle 竞赛项目):Kaggle是一个举办数据科学竞赛的网站,其中很多内容都适合初学者学习。“泰坦尼克号生存预测挑战”是一个Python和R语言的经典项目,有详细教程。
链接:
黑客排名(编程挑战):短期编程挑战,可提高你的技能,但不建议过多学习。
链接:
来源:Elite Data Science
智能观 编译