数据科学工作者(Data Scientist) 的日常工作内容包括什么?

原提问于2014年(3年前),知乎上也有一些相似的提问与回答。但因为数据科学发展日新月异,因此重新编辑并更新了题目。

--------------------------------------------------------------------------

原提问:

前几天看到一条吐槽是说,Data scientist is a statistician who lives in San Francisco(数据科学工作者就是住在旧金山的统计学工作者)。 虽说只是吐槽,但也部分说明了数据科学工作者这个职位似乎只是换了个头衔的分析师而已。

从我的个人理解而言,从技能树上来说,相比过去的商业分析师来说,面对现在结构更复杂,数据量更大的现实问题,数据科学工作者可能需要更强的动手能力。从业务层面上来说,数据科学工作者也不同于做具体产品的工程师(例如设计推荐系统或者图像识别的算法),似乎更多的服务于公司的决策层面。

国内不少互联网公司也已经在招聘数据科学工作者 这个职位,从职位描述上来看,似乎更类似于一个数据驱动的产品经理的角色。希望了解国内互联网行业,并且相关工作的朋友们介绍一下:

1. 在具体工作中,数据科学工作者是如何的与产品、开发、技术等部门的同时进行合作,并且扮演着怎样的角色呢?

2. 而在开始有数据科学工作者这个职位之前,与其业务相关的需求是由谁来实现的?


谢邀:)

众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容。即使在2017年,数据科学家这个岗位的依然显得“既性感又暧昧”。我随手搜索了几家国内国外不同领域的数据科学家招聘广告(国内:阿里巴巴,百度 | 海外: IBM,道明银行,Manulife保险),通过简单的归纳总结,我们不难发现其实岗位要求有很大的重叠部分:

  • 学历要求:硕士以上学历,博士优先。统计学、计算机科学、数学等相关专业。
  • 工作经历: 3年以上相关工作经验。
  • 专业技能: 熟练掌握HiveSQLHadoop,熟悉大规模数据挖掘、机器学习、自然语言处理(NLP)
  • 分析语言: R, Python, SAS, JAVA
  • 额外要求: 对数据敏感,具备良好的逻辑思维能力、沟通技巧、组织沟通能力、团队精神以及优秀的问题解决能力

有趣的是,这个广告适用于来大部分的数据科学家招聘,甚至不分行业不分地域。可能唯一的不同是,金融领域更强调擅长反欺诈和风控,而电商领域强调熟悉推荐系统,侧重点不同而已。其实这个现象的本质就是:数据科学家是一个不限行业,拥有广泛就业需求,高度"相似"却又"不同"的职位。因此结合我自己的经验,以及与国内国外这一行同事/朋友的交流心得,我想来谈谈我对数据科学家这个岗位的理解。

在个人理解的前提下,我想谈谈:1. 数据科学家为什么是“科学家”?2. 数据科学家的工作内容有什么? 3. 一些对于数据分析的感悟 4. 如何成为一个合格的数据科学家?

-------------------------------------------------------------------------------------

1. 什么是数据科学家?“科学家”是否言过其实?

数据科学家成为了一个跨学科职位我将数据科学家定义为: 能够独立处理数据,进行复杂建模,从中攫取商业价值,并拥有良好沟通汇报能力的人

关于数据科学家这个岗位怎么来的,说法不一。我自己的理解是随着机器学习和更多预测模型的发展,数据分析变得"大有可为"。为了区分拥有建模能力的高端人才和普通商业分析师/数据分析师(data analyst),数据科学家这个职位自然就产生了。通过这个新岗位,行业可以与时俱进的吸收高端人才。在机器学习没有大行其道,也没有大数据支撑之前,这个岗位更贴近统计科学家(statistician),和研究科学家(research scientist)也有一点点相似。

对于科学家,我们的一般的定义是在特定领域有深入研究的人,因此潜台词一般是“拥有博士学位的人”。而数据科学家的基本要求是硕士以上学历,甚至有时候本科学历也会被接受,而且似乎数据科学家的工作并不会在特定领域有深度。那么数据科学家是否言过其实了?

我的看法是:数据科学家的“广度"就是其"深度"从另外一个角度来看,数据科学家的优势在于其优秀的跨领域技能,既可以抓取数据,也可以分析,进行建模,还能将有用的信息用抓人的眼球提供给决策层。能拥有这样解决问题能力的人,似乎并不愧对一声“科学家”。

而正因为数据分析更要求的广度而不是深度,所有现在只有纽约大学提供科学博士,而现在大部分从业的博士都是统计学/计算机/数学/物理背景。正是这个原因,这个行业对于数据科学家的要求是硕士及以上,而计算机或者统计的人更适合的原因是其在机器学习/统计学习方面的积累,其他所需技能可以以很低的代价赶上。相对应的,如果一个心理学博士想要从事这一行就会发现需要补充的技能太多,而因此不能适应这个岗位。

与研究科学家(research scientist)相比,数据科学家更像是全能手但在特定领域深度不足。和普通分析师(analyst)相比,数据科学家应该有更强的建模和分析能力。在和数据工程师相对比时,数据科学家应该具备更强的汇报和沟通能力。

2. 数据科学家的日常工作内容包括什么?

我最近在和朋友闲聊时,惊讶的发现大家的工作内容都很相似。主要包括:

2.1. 分析数据和建模

此处的工作特指根据客户需求,从数据中攫取商业价值,而这个过程中一般都会涉及统计模型(statistical learning)和机器学习模型(machine learning)。如果在数据没有处理的情况下,我们的工作偶尔也涉及清理数据。有时候我们反而希望数据是未经过处理的,因为很多重要信息都在被处理中遗失了。一般的项目遵循以下几个流程:

  • 确定商业痛点 - 明白要解决的问题是什么?
  • 获得数据并进行清理,常见的数据预处理包括: a. 缺失值处理 b.特征变量转化 c.特征选择和维度变化(升维或者降维) d. 标准化/归一化/稀疏化。涉及文字的时候可能还要使用一些自然语言处理的手段,更多的相关方法可以看我最近的回答[1]。
  • 模型选择与评估。这个过程常常是比较粗暴的,往往需要做多个模型进行评估对比。
  • 提取商业价值,编写报告或意见书,并向相关负责人汇报。

2.2. 与团队其他成员的沟通

与纯粹的机器科学工程师不同,数据科学家的重要工作内容是交流沟通。如果无法了解清楚客户的需求是什么,可能白忙活一场。如果无法了解数据工程师在采集数据时的手段,我们使用的原始数据可能有统计学偏见。如果不能讲清楚如何才能有效的评估模型,负责在云端运行模型的工程师可能给出错误的答案。因此,数据科学家除了建模必须亲手来做以外,其他的环节可以“外包”给别人。在数据量特别大的时候,这个需求变得更为明显。

2.3. 开会/汇报/写报告

良好的沟通能力不仅仅是指和团队成员的沟通,向老板和客户的汇报也很考察数据科学家的能力。作为一个数据科学家,我们一般有几个原则:

  • 汇报时避免“黑话”,避免给不同背景的老板和客户造成疑惑。
  • 直击重点而不炫技。尽量简明扼要,不要过分介绍模型的内部构造,重心是得到的结论。
  • 实事求是不夸大模型能力。很多机器学习模型其实都已经不同程度过拟合,不刻意避开交叉验证而选择“看似表现良好的”过拟合模型。
  • 给出可以进一步优化和提高的方向,为项目提出新的方向。
  • 在汇报时尽量用可视化来代替枯燥的文字。

以我去年做的一个项目为例:

我们公司的领导层希望了解为什么我们的员工离职率很高,如何才可以避免这一点。遵循我上面介绍的流程:

  • 从人事部门收集数据,清楚的告诉他们我需要的数据时间跨度,变量。并和法务部门一起将数据中的隐私部分去除。
  • 进行数据预处理,建模并评估。
  • 从中挖掘商业价值,如 a. 为什么员工会离职(将变量重要性进行排序,用决策树可视化分类结果) b. 什么样的员工值得留住?
  • 制作报告,并像领导层汇报我的发现,过程设计可视化等。
  • 和其他部门的同事将这个项目包装成一个案例,卖给我们的其他客户。

这个基本包括了数据分析项目的基本流程,对于这个项目的一些有趣发现可以看我的另一个回答[2]。但不难看出,整个流程中有大量的沟通过程,甚至还包括销售的部分,这在一次体现了数据科学家的工作广度。

3. 对于数据科学家的一些感悟

3.1. 不要沉迷于自己的“职位”

数据科学家是个听起来非常“性感的”的岗位,别忘了我们小时候的梦想都是成为一个科学家。但抛开这些虚的东西,我们必须认清这个岗位的核心就是将很多技能封装到一个人身上。而我们工作的正常开展少不了其他同事的支持和帮助,所以千万不要看不起别人的工作内容。没有数据工程师进行数据采集,没有分析师帮我们美化图表和提出质疑,我们无法得到最好的结果。

数据分析项目一直都是众人拾柴火焰高,没有人可以当超人。所以在得到这样“高薪性感”的职位后,我们更应该把心装回肚子里,脚踏实地。

3.2. 不要盲目迷信算法

承接上一点,虽然我们的工作重点之一是建模,但请不要神话算法,也不要挟算法以令同事,觉得只有自己做的部分才有价值。

简单来说,可以通过没有免费的午餐定理(No Free Lunch Theorem -&> NFL Theorem)来解释。NFL由Wolpert在1996年提出,其应用领域原本为经济学。和那句家喻户晓的"天下没有免费的午餐"有所不同, NFL讲的是优化模型的评估问题。

在机器学习领域,NFL告诉机器学习从业者:"假设所有数据的分布可能性相等,当我们用任一分类做法来预测未观测到的新数据时,对于误分的预期是相同的。" 简而言之,NFL的定律指明,如果我们对要解决的问题一无所知且并假设其分布完全随机且平等,那么任何算法的预期性能都是相似的。这个定理对于“盲目的算法崇拜”有毁灭性的打击。例如,现在很多人沉迷“深度学习”不可自拔,那是不是深度学习就比其他任何算法都要好?在任何时候表现都更好呢?未必,我们必须要加深对于问题的理解,不能盲目的说某一个算法可以包打天下。

周志华老师在《机器学习》一书中也简明扼要的总结:“NFL定理最重要的寓意,是让我们清楚的认识到,脱离具体问题,空泛的谈‘什么学习算法更好’毫无意义。”

在这个深度学习就是一切的时代,作为数据科学家,我们要有自己的独立判断。

3.3. 重视数据可视化和模型可解释度

数据科学家作为一个更偏商业应用的岗位,而不是研究岗位,需要重视数据可视化的重要性以及模型可解释度的意义。原因很简单,如果客户看不懂我们做的是什么,或者客户不相信我们做的东西的可靠性,你即使有再酷炫的模型,也只是浪费时间。在大部分中小型的数据分析项目中,用深度学习的机会是很有限的。原因包括但不限于:

  • 数据量要求很大
  • 调参成本太高且奇淫巧技太多
  • 模型可视化即解释度低

而比较常用的机器学习模型是: 广义线性模型(generalized linear models),如最普通的逻辑回归;还有以决策树为基底的模型,如随机森林和Gradient Boosting Tree等。这两种模型都有很好的可解释性,而且都可以得到变量重要性系数。以Sklearn官方文档中的简单的决策树可视化为例:

我们可以清楚的看到一个数据点如何从上至下被分到了不同的类别当中。作为一个需要和不同背景的人沟通的职业,分类器可视化是一个很好沟通基础。

而可视化的好处远不止于此,在数据建模初期的可视化可以避免我们走很多弯路。以ISL[3]中附带的线性回归为例,我们一眼就可以看出最右边的图不像左边的图中的数据可以通过简单的线性回归进行拟合,可以直接跳过线性回归来节省时间。

3.4. 避免统计学偏见 给出严谨的结论

承接上一点,对于一个问题我们通常无法得到所有的相关变量,这导致了大部分数据分析的结果其实或多或少都有偏见。讲个经典的统计学笑话,夏天溺水身亡的人数相比冬天大幅度上升,而夏天吃冰激凌的人数也上升,所以得到结论: “吃冰激凌”会导致“溺水”。这种数据会说谎的本质就在于我们无法获得所有的隐变量,如夏天去海边的人数上升,游泳的人数上升等。

而在数据分析的项目中,大部分谬误无法像上面这个例子一眼就可以看穿,我们常常会获得很多看起来很可信但实则大误的结论。作为一个数据科学家,请在分析时小心在小心,谨慎再谨慎,因为我们的分析结果往往会直接影响到公司或者客户的收益。假设你做人事分析的项目,错误的结论可能导致优秀的员工被解雇。

所以万望大家不要总想搞个大新闻,对于没有足够显著性的结论请再三检查,不要言过其实。这是我们的责任,也是义务。

4. 如何成为一个合格的数据科学家?

假设你已经有了基本的从业资格:即有相关领域的学位,掌握了数据分析和建模的基础能力,也懂得至少一门的分析语言(R或Python)和基本的数据库知识。下面的这些小建议可以帮助你在这条路上走的更远。

4.1. 扎实的基本功

像我在另一个机器学习面试回答[4]中提到过的,保证对基本知识的了解(有基本的广度)是对自己工作的基本尊重。什么程度就算基本了解呢?以数据分析为例,我的感受是:

  • 对基本的数据处理方法有所了解
  • 对基本的分类器模型有所了解并有所使用(调包),大概知道什么情况使用什么算法较好
  • 对基本的评估方法有所掌握,知道常见评估方法的优劣势
  • 有基本的编程能力,能够独立的完成简单的数据分析项目
  • 有基本的数据挖掘能力,可以对模型进行调参并归纳发现

至于其他软实力,暂时按下不表。

4.2. 从实践中培养分析能力

屠龙之技相信大家都有,我常常听别人说他已经刷完了X门在线课,熟读了X本经典书籍,甚至现代、优化、概率统计都又学了一遍,但为什么Kaggle上还是排名靠后或者工作中缺乏方向?

简单来说,上面提到的这些储备,甚至包括Kaggle经验,都属于屠龙之技。数据分析领域的陷阱随处可见,远不是几本书几篇论文就能讲得清楚。最好的方法只有从工作中实践,跟着你的师傅学习怎么分解项目,怎么提取价值。

我记忆很深的一个例子是:有一次我和我的老板为某国家铸币中心制定最优的纪念币定价方案,来最大化收益。但根据客户给我们的例子,我们的优化模型效果很差,误差极大。我的老板给了我几个建议:1. 把回归问题转为分类问题,牺牲一部分精度 2. 舍弃掉一部分密度很低的数据,对于高密度区域根据密度重建模型 3. 如果不行,对于高密度区域用有限混合模型(Finite Mixture Model)再做一次。采纳了老板的建议,最终我们对于百分之75%的纪念币做到了最佳的优化结果,为客户带来了价值。客户对于剩下25%无法预测表示理解,因为他们无法提供更多的市场数据。

那个时候的我总觉得不能舍弃数据,但我的老板用行动告诉我客户最需要的是获得价值,而不是完美的模型。而这种感悟,我们只有在实际工作中才能获得。所以当你作为数据科学家开始工作时,请多想想如何产生价值,而不是一味地炫屠龙之技。

4.3. 平衡技术与沟通能力

数据科学家的重要工作内容就是汇报和写报告,因而良好的"讲故事"(storytelling)能力非常重要。在学习的过程中,请不要把全部的重心放在技术能力上。技术能力可以保证你有东西可以说,但讲故事这种软实力可以保证你的辛苦没有白费,你的能力获得大家的认可。同时,这种沟通能力也可以让你在社交中更加如鱼得水,一改理工科给人留下的沉闷的印象。轻沟通,重技术,是一种工程师思维,但这并不适用于数据科学家

最后想不恰当的引用一句西方谚语:“欲戴王冠,必承其重。”在这个数据为王的时代里面,成为优秀的数据科学家不仅仅代表着高薪,还代表着我们对于这个时代的贡献与价值。然而道路阻且长,还有太多太多需要我们学习和完善的方向。

与君共勉:)

-------------------------------------------------------------------------------------

文中提到的其他回答:

[1] 阿萨姆:如何有效处理特征范围差异大且类型不一的数据?

[2] 阿萨姆:为什么四大里面总说要辞职的人一直都没走?

[3] 带你读机器学习经典(二): An Introduction to Statistical Learning (Chapter 3.1 线性回归)

[4] 阿萨姆:面试官如何判断面试者的机器学习水平?

* 原提问是"国内互联网公司的数据科学家在做什么?",因为提问时间教早且数据分析行业发展很快,我更新和补充了题目。


可以把scientist理解为analyst的architect版本。

就像程序员和架构师一样。

既然是公司,肯定就离不开业务。所以总的来说任何职位归根结底都面向business。

scientist能从基础架构,模型实现,业务要素上辅助团队,并整体协调analyst的工作。

scientist往往有较强的理论背景,丰富的实践经历和对行业数据的insight。

而这些在普通工程师身上都有一些瓶颈,比如接触工程多了,对底层不了解,对现代统计理论认识不足,数学背景有瓶颈,等等。行业insight也很重要,但一般做到scientist会对行业的认识上升到哲学层面,对具体的业务有系统独到的了解方式。最后经验是硬道理,没有足够的训练和反省是担当不起大任的。


我目前服务于 Emotibot www.emotibot.com

主要负责自然语言理解,日常主要工作

  1. 读 paper,利用 tensorflow or theano 建立network,可能是classification NN, 可能是 embedding NN, 可能 reproduce 最新的文献结果。
  2. 写报告,error analysis,如何improve model,如何提升现在的问题解决率
  3. 纯读 paper,虽然我是做自然语言理解,但偶而也是会follow 一下影像辨识的进展,有空时会建立影像辨识的NN 来研究研究, 除了最近很火的GAN外,对于前阵子推出的 residual learning 这个 idea 也很着迷,ex: https://www.zhihu.com/question/47748776/answer/154306383


本文翻译自 What does a data scientist do?

下面说一个故事,我和Data Scientist(老王) 的一天

数据分析

老王通常在上午8时30分在办公室工作,在通过Slack与团队的其他成员分享他的工作后,他进行了一些数据分析任务。

例如,今天他正在用Jupyter Notebook和Python探索数据集;他正在考虑什么样的数据可视化将允许人们查看数据,而不会透露任何具体到足以识别个人的细节。由于数据集包含机密信息,老王还在考虑可以安全存储数据的位置,以及如何在不暴露数据库的情况下进行查询。稍后他会和客户讨论选项,看看他们喜欢哪一个。

解决问题

上午,老王得到一个紧急要求,尽快解决问题。

我们的开发人员需要一种方法来从自定义网络地图中的像素中提取位置和时间信息。网络地图是一个可以帮助人们监视森林的应用程序的一部分。如果我们能够从一个像素中提取精确的经度和纬度坐标,指出可能在哪里发生森林砍伐,人们可以在现实生活中对其进行调查更容易。我们的数据科学团队的另一位成员小X创建了一个示例软件管道来提取信息。它需要他们一点时间,所以他们在午餐时间加班。

午餐后几个小时,老王和小X拿出了他们认为会奏效的解决方案。他们通过测试,对它感到满意,他们正式化了他们在Jupyter笔记本中写的笔记,并将其推送到Github,所以任何人都可以看到它并复制它。

下一步是检查解决方案,以确保它可以被集成到应用程序中而没有任何问题。尽管如此,开发人员决定采用不同的解决方案,在较早的阶段提取信息。然而,这个时间和精力将不会浪费,因为解决方案可能适合未来的另一个项目。所以,现在,它保存在我们的“教程”文件夹中。

知识共享

老王当天的最后一次任命是我们设计师之一雯雯。他们一起设计了一个网页,旨在将复杂的气候科学传播给高中毕业以来没有学习科学的观众。 雯雯是目标受众的完美榜样;她关心气候变化,但对其背后的科学知之甚少。通过结合气候知识和设计技能,他们希望创造出一些可访问、用户友好的、充满事实和数据的东西,帮助人们了解碳在气候变化中的作用。

今天下午,老王正在向小王讲述碳循环,解释大气与生物圈之间的碳运动等概念。我问雯雯在和老王的谈话中发现了什么,她说:“我正在学习很多我以前不知道的事情。与他谈话最令人惊奇的事情之一是,季节之间的碳储存量有多大,而通过观察月球或星星上的黑点,实际上可以计算出地球上碳含量的人员有多少。 ”

数据和设计

意识到这一项目不仅仅是教一位同事碳循环如何运作,所以我问老王他对于数据科学家与设计师合作的看法。他解释说使用错误的视觉化可能会产生误导。 雯雯可能会创造出你所见过的最美丽的设计,但如果不传达事实,或者如果它延伸,它就变得毫无意义。

数据科学家和设计师必须共同努力,确保数据引导设计,并以不会混淆或压倒用户的方式进行传达。如果设计师了解他们正在设计的数据的细节和背景,那么设计更有可能实现其目标。

总结

下午五时三十分,老王当天已经完成任务,正在回家。我从他那里学习的日子让我意识到数据科学家的做法不仅仅是检查和分析数据。他们花费大量时间和人交谈:

  • 让客户了解他们的领域和问题空间,确保他们获得真正需要的产品;
  • 设计师创造出最佳的美学平衡与科学精确度的视觉化;
  • 并与开发人员确保数据最终需要的是最佳的打包和准备使用。

数据科学家在扮演教师,顾问和解决问题的角色时需要很好地交流和热衷于他们的主题。在我听到今天以后,我会说老王完美地符合这一描述,他绝对改变了我对数据科学家整天做的事情的看法!


可以负责任的讲,他们都在吃饭睡觉。

好吧,这个回答虽然严谨但并没什么意义。我的意思是每个公司不同,每个人不同,做的事情也会非常不同。有的主要编程、清理数据、实现算法,改进参数。有的分析业务数据,看运营情况,发现问题,做预测。老是有人说了解业务,这个说法很没有意义,哪个职位不需要了解公司业务?工程师?销售?市场?设计师?财务?除了你说保洁的我比较难回答,否则公司的任何职位都应该了解业务,而了解业务的深入度和清晰度直接决定了你的职业发展。每个职位都有人混吃等死,有人积极进取。

数据科学家可以做的方向有很多,包括:专注运营,分析运营数据,预测发展,负责准确预算,跟BA比,更偏重预测发展和准确预算,很多BA转DS的例子;专注产品,通过数据研究用户心理,指导产品设计和呈现,以前叫Research Scientist;专注工程,保证数据质量,安全,存储,跟data architect的区别是更偏重数据本身的模型和质量。这些都是数据科学家在做的事情。


很多企业的数据科学家都是在调参,装逼,忽悠三个状态间游走。


面试过http://Booking.com的Data Scientist,互联网公司无论国内外应该需求都是相似的,所以应该可以参考一下。他们的Data Scientist并不把自己严格的和Business Analyst区分开来,两个角色同时在公司里存在也会有互换,面临的都是相似且非常实际的Business Case。

比如一个实际的例子是他们想要在中国挑选合作对象,手上有近百家公司的数据,现在需要做一个模型来帮decision maker(product owner)做决定。是DS接手还是BA接手来做完全取决于product owners的所在部门。

两个角色大多都不是CS出身,一定的统计线性代数背景就够用了。如果要操控大规模数据,自己能上就上,不能上就给工程师提需求。总而言之,都是帮助老板解决实际问题创造效益,title不是很重要。

如上所述,一般合作对象: product owner, 工程师。


A DS team under IT department (yay, an old money brand)

1. Recommender system by clustering collaborative filtering.

2. Some text mining on consumer comments.


好的data scientist应该最少有两个职能。首先如名称的字面意义,这个人必须懂数据,例如数据类型,数据量,数据整合,统计等等。其次是他是个“科学家”,懂得复杂的算法,知道一个业务问题会有多少种不同的算法来解决。当然他要真牛的话,自己写算法也是可以的。

第二个职能从名称里没有体现,就是他必须懂业务,知道客户问题的来源和目的。因为懂得业务,数据科学家才能提供出最合理的建议。否则这些人就是闭门造车或者装B,整天说一些IT和业务人员都不懂的术语来混吃混喝。


今年带了数据分析班,看到这个问题想简单说几句。

对于数据分析,很多正常人对这个的理解这是一个在信息爆炸的时代诞生出来工资堪比房价的职业。

但我想说的是工资高有高的理由。就像不会看财务报表的人看到财务报表一脸蒙逼的时候,如果这时候有一个业内人士帮着解读报表,就可以进一步做出更符合自己利益的决策。

数据分析也是这个样子!数据分析师就是要把数据收集起来以后,通过数据可视化等手段很客观地让一个正常人都可以轻轻松松看懂数据所表达的含义,数据分析师本人必须不带任何偏见地收集数据分析数据,结合现实的需要分析出大家需要的数据信息。

然而在我带班的过程中我发现很多人是在学习数据分析的时候从入门到放弃的,传统的填鸭式课堂不适合实战演练的数据分析培训!

如果周围的同学有学数据分析的务必在自己学习的过程中及时记录自己对于数据分析的理解,公示记录,分析过程,分析代码报错等。

嗯,如果有数据分析老司机来带带你这是最好不过的事儿


忽悠

忽忽忽悠悠悠

忽忽悠悠

忽忽忽忽忽

悠悠悠悠悠

忽天地之悠悠


sql工程师+调参工程师?

匿了。。。


玩表,导数据


推薦閱讀:

單機遊戲里的npc會不會有自己的人生?
Offer選擇:寒武紀科技,TI?
Kaggle的RandomForest和XGBoost的比較完整的代碼模板和代碼骨架?
為什麼做stacking之後,準確率反而降低了?
如何看待 Google TPU?寒武紀晶元較之有哪些優勢與不足?

TAG:人工智能 | 数据 | 统计学 | 机器学习 | 数据科学家 |