數據分析師和數據科學家有何區別?

譬如說職責和工作內容等方面的比較,但不限於此


謝邀。

不同意現在排名第一的回答,首先,讓咱們分清楚問題到底是什麼:你想問的到底是「現在企業中的數據科學家是什麼樣」還是「數據科學家應該是什麼樣」。前者屬於實證問題,後者屬於規範問題,答案顯然是不一樣的。

O"Relly那篇文章我也讀過,裡面說「 Data Scientists往往可以獨立完成一條龍的完整分析過程:從數據提取,整合、並進行分層,進行統計或其他複雜的分析,創造引人注目的可視化詮釋和效果,開發具有更寬廣應用前景的數據工具。」 這句話其實我是同意的,劍指斜陽其實也有類似觀點。但是現在排名第一的答案給出了一個「Data Researcher 更符合一個科學家的形象——專註地研究」的結論,我實在不能苟同。難道只有研究data才叫研究,研究企業就不叫研究嗎?

另外,Levin菠蘿說「數據分析師和數據科學家,如果非要進行分類的話我認為區分在於初級的Date Creative和高級的Date Creative。例如初級的進行基礎的相關、回歸、聚類等統計分析,高級的進行機器學習、神經網路等高級挖掘分析」,這點就更加誤人子弟,把回歸、聚類歸入初級分析,機器學習、神經網路歸入高級分析,這本身在學術上就是錯的。回歸、聚類、神經網路都是機器學習的範疇——不要以為回歸就是OLS,還有很多technic,優化方法如MCMC、MLE、Gradiant Descent、Gradient Boosting,取樣如bootstrapping, bagging, ensemble,還可以修改cost function加penalty,從更廣闊的角度來看,回歸其實是神經網路的一個special case。而且我還是頭一次見到人把神經網路和機器學習並列起來談的——前者明明從屬於後者的範疇。

下面正式回答問題:

1、現在企業中的數據科學家是什麼樣?

從我的觀察來看,不同企業對於data scientist這個title的定義其實是有分歧的,偏向於data reseacher的有,多見於大型IT企業,百度大腦的data scientist們多屬於這一類型,他們搞的是比較前沿的深度學習,平常會讀大量paper可能自己也會發;偏向於data creative的有,各種企業都會儲備,會ETL,懂模型、懂行業,會展示溝通,比較能夠創造直接的價值。偏向於data developer的也有但是很少,他們不懂模型,只要給他們演算法公式,他們就能用編程語言幫你實現,實現演算法是重要的技能,但是這種不懂模型不懂行業的,現在大多企業都不太會給這樣的人data scientist的title了。用最常用的數據分析軟體R來做個比喻,通常是:

data reseacher:發明/改進模型演算法然後給R寫package的。

data creative:用R作分析的。

data developer:覺得R太簡單不屑於用的+偶爾幫data reseacher給R寫package的。

很多時候,data scientist這個title對於企業來說只是眾多title的一個,並沒什麼特別的,員工從Jr. Data Analyst、Sr. Data Analyst一路幹上來,需要升職,公司需要激勵員工,恰好data scientist這個title又比較sexy一點,那就叫data scientist好了!這就是多數企業的邏輯,無非是提供一個能和Associate、MD、VP這種管理層晉陞路線相比擬的技術晉陞路線罷了。

2、數據科學家應該是什麼樣?

這個問題其實大家都在摸石頭過河,以下提供一點個人的淺見,歡迎交流。

「能夠獨立完成一條龍的完整分析過程」是數據科學家身上獨有的重要價值。O"Relly那篇報告把數據分析分成三個階段,數據提取、整合;數據統計、複雜分析;可視化詮釋,並把這些任務交由開發人員、分析師和設計師擔當,這在理論上是沒有錯的。但是在實際中企業的很多問題並不能清晰定義,像這樣如流水線般精確地分配工作往往是不可能的——企業的問題很多時候只是老闆腦中閃現的一個idea,面對這樣的問題,回答的思路都還有待討論,更遑論去找什麼樣的數據,去哪裡找數據、怎樣去找數據、以及後續怎樣分析這樣的問題了。

這個時候,數據科學家的價值就體現出來了,一個理想的data scientist應該是data developer、data creative、data researcher、data businessperson的結合,Ta往往能夠領導一個沒有被清晰定義的問題的回答過程,在這期間,data scientist對於完整分析過程的把控能力能夠幫助Ta主導項目的方向,整合各方資源,data scientist並不一定需要親身參與到技術開發過程中,但是Ta知道什麼樣背景的人能夠勝任這些工作,知道怎樣組建適當的團隊,也知道什麼樣的模型或分析方法能夠適用,它們的優缺點都是什麼,怎樣改進,必要時懂得去查找學術界最新的研究成果並轉化;以及知道老闆想要什麼,始終牢牢把握問題的核心,及時糾偏。最後,把這一套回答此類問題的方法流程化,以應付以後出現類似問題。

綜上所述,data scientist應該是data developer, data creative, data researcher、data businessperson的結合,但又高於這四者,關鍵就在於Ta對於整個數據分析閉環的把控能力。有清晰定義的、循規蹈矩的Routine work不是data scientist的專長,data scientist的專長在於formulate、quantify未清晰定義的問題,data science這個領域本來就有協作性,靠一個人單打獨鬥肯定不行,但只有data scientist這樣的「通才」才有能力領導那四種「專才」去解決棘手的問題。

相信看了以上回答,數據分析師和數據科學家的區別已經不言自明。

歡迎關注大數據留學申請公眾號:dsjlxsq


-
謝邀。

目前Data Science方興未艾,企業里很多崗位都和Data相關,包括數據科學家、數據分析師、數據架構師、數據工程師、資料庫管理員、商業分析師、數據產品經理等等。這裡主要談談最常見的Data Analyst 和Data scientist 的區別。

一、從企業類型來看:

  • DA:只要有數據的企業一般都會設置這個崗位。
  • DS:一般只有規模比較大,擁有海量數據的企業才會配備,但目前很多小企業也開始招聘Data scientist 。

二、從崗位設計來看:

  • DA:一般分為助理數據分析師、初級~、中級~、高級~、資深~等。
  • DS:通常比DA的Level更高,有時候是整個數據部門的Lead(首席數據科學家),有的企業設置有CDO(首席數據官),與CFO、COO相提並論,負責數據相關的各種。未來有取代CIO的趨勢。

三、從掌握技能來看:

  • DA:SPSS、HTML、Pyhon、Excel、SQL、統計學等,根據具體部門不同略差異,主要負責收集數據,整理後製作數據表格進行展示。
  • DS:除了以上技能之外,通常還需要以下技能的一項或者幾項:大數據相關(HivePig/Spark)、自然語言處理(NLTK/Pattern/TextBolb/Gensim)、數據挖掘(分類/聚類)、統計建模(ANOVA/MANOVA)、數據倉庫等;且熟悉某領域內的應用(語音識別/人臉識別/推薦系統/計算廣告)。完美的數據科學家應該是業務與技術、科學與藝術的完美融合者。

具體技能可以到我的專欄里看看:知乎專欄,這裡我直接貼過來好了。

以上。

-


剛回答了一個相關問題,然後居然發現跟這個更對題,來湊湊熱鬧吧。

我所在公司DA組大體分三類職務:data scientist,data analyst和data engineer。翻譯上最接近分析師的應該是analyst,但就我理解,好像還是有一些偏差的,索性都說說吧。不過也僅限我所在公司,不知是不是業內普遍的做法。

Data Scientist:屬於RD,主要是新模型/演算法的開發。我們會讀paper,會寫research proposal(只是一部分,也有一部分是下級子公司交上來的),主要績效是internal publication(technical report),external publication(journal/conference papers),transfering(提出的方法在實際操作端被使用的頻率,操作者即為analyst,待會說)。除此外,也會寫R/Python/MATLAB等等的 package。但只是為實現自己提出的方法,不是工作的重心,且用什麼都無所謂,順手就行,不過為了能跟同一個project的同事們協調,基本上面說的那幾個都得會。

Data Engineer:Scientist不做代碼優化,也止步於簡單的程序(R/Python/MATLAB/Eviews/JAVA,公司內部都有在用)。當有些演算法實現很複雜,需要優化和更高級的程序語言如C++時,就變成data engineer的任務了。所以engineer要讀scientist寫出的report還要幫助優化代碼,但這個需求量很小,公司的engineer也很少。此外,當涉及到更深一層的計算加速如最新的高性能計算(HPC)的時候,工作會返到RD里專做HPC的scientist。

Data Analyst:公司也是用於基於Google,MS(還有別的,忘記了)的服務平台,HIVE,PIG等,Analyst主要是任務就是把scientist和engineer發來的代碼整合到這個系統中去,他們基本不讀technical report,只看其使用說明,知道幹什麼用的就行了。當業務需求使用某些方法的時候,他們就是一線操作者,出最終的分析報告一類的。他們同時管理公司資料庫(其實應該歸Data architect 管,但我們公司把好像把這倆職務合併了)。當scientist要數據,他們要收集清理,當客戶或者子公司要數據,他們也要收集清理。所以從這個角度講,analyst翻譯成分析員就足夠了。

當公司分工不明確,DA組很小的時候,分析師應該是以上三個工種的雜合,具體應該是少量的RD,部分代碼優化和分析員的全部工作。

但在一個分工明確的公司里,基於上面描述,analyst基本不可能成長為scientist。


我們翻譯了Rick Delgado關於數據科學和數據分析的見解,希望對你有所點幫助。

編者按:數據科學和數據分析,在技術領域或其他相關行業工作的人可能會經常看到這兩個術語,雖然他們倆看起來挺像,但是這兩個術語是完全不同的,對業務有不同的影響。

數據科學

就像包含了許多專業和領域的科學一樣,數據科學也是獲取信息的各種模型和方法的廣義術語。在數據科學的範疇內,科學方法、數學、統計學和其他工具用來分析和操縱數據。如果一個工具或過程通過數據分析,從中獲取某種信息,那麼,它可能屬於數據科學。

實踐數據科學歸結為連接信息和數據點,以找到可用於業務的連接。數據科學通過嘗試找到新的模式和視角,深入了解未知世界。

數據科學試圖建立連接並為未來做好計劃,而不是像數據分析所做的那樣,檢查假設。數據科學通常通過提供數據上的新觀點,或以前沒看到不知道的所有的連接,幫助組織從查詢數據轉移到洞察力上。

數據分析

如果數據科學是掌握工具和方法的房子,那麼數據分析就是該房屋的特定空間。它與數據科學有關係,但是更具體和集中。數據分析通常比數據科學更受到關注,因為數據分析師不僅僅尋找數據之間的連接,而是關注一個特定的目標,通過數據排序來尋找支持的方法。數據分析通常是自動化的,可以在某些領域提供意見和見解。

數據分析包括梳理數據,找出可用於幫助實現組織目標的巨大財富。基本上,分析將數據分類成組織知道自己了解的數據和知道自己不了解的數據,並且可以用來衡量過去,現在或將來的事件。數據分析通過將趨勢和模式與公司的真實目標聯繫起來,從精準分析轉移到會給公司帶來什麼影響,並逐漸轉向提升業務率和尋找戰略重點。

數據科學家和數據分析師的差異

數據科學和數據分析之間看起來只有微妙的差異,但是實際上兩者可能對公司產生很大的影響。

一開始,數據科學家和數據分析師就有不同的背景,履行不同的職責,所以能正確使用這些術語有助於公司聘請合適的人員來處理各自的任務。數據分析和數據科學可以用來找到不同的東西,對於企業來說這些都是有用的,兩者都不能單獨應用於所有情況。數據分析常用於如醫療保健,遊戲和旅遊等行業,而數據科學常用於互聯網搜索和數字廣告中。

數據科學在人工智慧和機器學習的發展中也發揮著越來越重要的作用。許多公司正在轉向允許他們使用計算機篩選大量數據的系統,例如在企業快閃記憶體系統上,使用演算法來找到最有助於其組織實現目標的連接。機器學習在許多行業具有巨大的潛力,無疑在未來如何運作企業方面發揮巨大的作用。因此,組織和員工了解數據科學與數據分析之間的區別,以及對每個學科的作用至關重要。

雖然存在差異,但數據科學和數據分析都是未來工作和數據的重要組成部分。這兩個術語應該被希望理解數據,並能引領技術變革的公司所接受。

原文鏈接:https://insidebigdata.com/2017/06/03/difference-data-science-data-analytics/


數據分析師和數據科學家的區別,實際上體現了市場從傳統數據時代向大數據時代的進化。那麼傳統數據分析與大數據到底有什麼區別呢?個人認為所謂的「4V」特徵有些隔靴搔癢,無法從工業界實踐的角度準確地解釋兩者的區別。

在我們看來,大數據區別於傳統數據使用的關鍵點,可以用下圖中的的三個關鍵特徵來描述:

(1)行為數據:傳統的數據處理任務,往往面對的是交易數據。所謂交易數據,指的是商業活動中必須記錄的數據,例如電信運營商的話費充值、通話記錄,銀行的存取款、利息等。交易數據處理的規模往往並不算太大,但是對一致性和實時性的要求非常高,IOE的計算架構為交易數據處理提供了較成熟的方案。與此相對,商業活動中產生但是並非必須記錄的數據,就是行為數據。電信運營商採集到的用戶位置,銀行的窗口排隊,以及網站的用戶訪問日誌等,都屬於行為數據。與交易數據相比,行為數據的加工有兩個特點,首先是規模巨大,其次是不過對一致性的要求要低得多:比如網站的日誌丟失千分之一,往往並不是什麼嚴重的事故。由於這兩個特點,傳統的IOE架構並不合適,這些是大數據架構產生的原動力。

(2)全量加工:如果數據規模很大,並且問題無法通過數據採樣的方法來降低處理複雜程度,那就必須利用一些專門為海量數據處理而設計的計算和存儲技術,例如MapReduce,NoSQL資料庫等,來實現。

如果通過數據採樣能夠顯著降低數據處理的複雜程度,同時解決問題的效果(即目標函數)沒有太大的下降,那麼顯然應該這樣做。一般的統計報表、報告等,往往屬於這類問題。另有一些數據問題,基本上不可能只處理一小部分數據來達到處理全量數據的效果,或者說,隨著數據採樣率的降低,解決問題的收益快速下降,這類問題是典型的大數據問題,個性化推薦和計算廣告等問題,需要用到每一個人的行為做定製化推送,而無法只採樣部分人做處理,符合這一特徵。

(3)自動化應用:使用數據的應用有兩種類型,一種是洞察(insight)應用,即對數據作統計分析後,得到整體的結果報表,再由決策者根據結果進行決策。洞察應用傳統典型的例子,是企業的財務報表;而商業智能(Business Intelligence, BI)也屬於洞察應用。另外一種是自動化(automation)應用,即將數據處理的結果直接送給對業務作自動決策的引擎。計算廣告正式是典型的自動化應用,從用戶行為數據收集,到受眾定向過程,再到線上根據用戶標籤的自動決策,整個過程都是自動化進行的,人的作用只是建立流程和調整策略。電商的自動進貨系統,也是一種大數據的自動化應用。

洞察應用由於業務決策過程中有人的參與環節,因此報表的數據規模不能太大,這會帶來一定的信息量損失。另外,對洞察報表的解讀和決策,實際上需要相當專業的訓練,這一點大家想想財務報表的例子就可以清楚。而自動化應用由於是機器進行決策,數據可以在個體粒度上進行處理,這使得數據能夠發揮更大的效果。因此,我們認為,相對於傳統的洞察應用,自動化應用才是真正發揮大數據優勢的應用形態。

由於上述三個特點的存在,傳統面向中等規模交易數據的存儲和計算的IOE架構變得不再合適,必須尋找新的方案。這些需求催生了Google的GFS、MapReduce、BigTable這三駕馬車,也產生了hadoop、spark等開源技術方案。

明白了上述的特徵,我們就非常清楚大數據時代的數據科學家與傳統意義上看報表、做優化的數據分析師的區別了。我們認為,合格的數據科學家,應該是如下的一類工程師:

數據科學家是指能採用科學的方法論,調動充足的計算能力,將大量人類無法直接處理的數據轉化成有用信息,以驅動自動化業務決策的專家。

簡單地說,驅動機器做決策而不是自己決策、面向大量行為數據而非少量洞察統計、利用分散式計算平台,是數據科學家的主要特徵。而數據科學家的養成,也要在意識、能力與技能三個層面全面提高。

數據優先於經驗,計算優先於人工的理念,說來簡單,要真正建立起來並不容易,這並不是讀幾本以「大數據」為題的雞湯著作就可以速成。相對於此,基礎技能的學習反而要簡單地多。

從市場能找到的資料來看,最缺失的是金字塔的腰部,即如何熟悉數據行業的基本產品問題和市場鏈條(見下圖中的問題),以及其中有什麼有趣的技術點。與互聯網其他領域一樣,不了解產品,就無法真正理解問題,也無法形成感性認識,這才是初入大數據行業者最大的障礙。對此,我們應知乎邀請準備了系列live: 通往大數據達人之路,歡迎有興趣的讀者參與。


萬事無捷徑,要想成為一個數據分析師或者數據科學家是需要經過系統學習和實踐的,其中國外有位數據挖掘與數據學專家:Gregory Piatetsky總結了七個學習步驟,詳細內容如下:

原文內容:資源總結--七步學習數據挖掘與數據科學-博客-雲棲社區-阿里雲

想知道如何學習數據挖掘和數據科學嗎?本文概述了七個步驟,指出的資源能讓你成為一名數據科學家。

作者為Gregory Piatetsky,是一名數據挖掘與數據科學方面的專家。

以下為7個步驟用於學習數據挖掘和數據科學。雖然有編號順序,你也可以並行或以不同的順序學習:

1 語音:學習R、Python以及SQL語音;

2 工具:了解如何使用數據挖掘和可視化工具;

3 教材:閱讀介紹性的教科書,了解基礎知識;

4 教育:觀看網路研討會,參加課程,考慮獲得數據科學中的證書或學位;

5 數據:檢查可用的數據資源並在那裡找到東西;

6 競賽:參加數據挖掘競賽;

7 通過社交網路,團體和會議與其他數據科學家交流;

另外,不要忘記訂閱KDnuggets新聞郵件,並跟隨@kdnuggets了解關於分析、大數據、數據挖掘和數據科學的最新消息。

交互使用數據挖掘與數據科學——見我的分析行業概覽報告,報告中有關於相關術語的演變和普及,比如統計、知識發現、數據挖掘、預測分析、數據科學以及大數據。

1 學習語言

民意調查表明,數據挖掘最流行的語言是R,Python和SQL語言。

這裡有很多的資源,比如:

免費電子書資源關於R語音的數據科學

Python數據科學入門

Python數據分析:現實世界數據的靈活工具;

不可或缺的Python:數據源到數據科學

W3學校學習SQL

2 工具:數據挖掘,數據科學和可視化軟體

許多的數據挖掘工具應用於不同的任務,但最好是使用支持數據分析的整個過程的數據挖掘套件。

你可以使用開源(免費)的工具,如啟動KNIMERapidMinerWeka

然而,對於許多分析工作還需要知道SAS,它是全球領先的商業工具並得到廣泛應用。

其他受歡迎的分析和數據挖掘軟體包括MATLAB、StatSoft推出STATISTICA,Microsoft SQL Server、IBM SPSS Modeler以及Rattle。

可視化是任何數據分析的重要組成部分——學習如何使用Microsoft Excel,R graphics,以及="http://www.tableau.com/">Tableau 。其它好的可視化工具包括TIBCO Spotfire和Miner3D。

3教材

網路上有很多的數據挖掘和數據科學教材,但你可以參考以下這些:

數據挖掘與分析:基本概念與演算法

數據挖掘:機器學習工具實踐與方法

統計學習、數據挖掘以及預測的要素

LION書籍:學習與智能優化

大數據集挖掘

StatSoft推出的電子統計教材

4 教育:網路研討會、課程、證書以及學位

可以通過觀看一些許多免費的關於數據分析、大數據,數據挖掘和數據科學的網絡研討會和網路直播開始學習。

也有許多短期和長期的在線課程,其中許多是免費的-見KDnuggets在線教育目錄

特別參考以下課程:

機器學習

從數據中學習

開放式在線學習應用數據科學

使用Weka進行數據挖掘

本文作者的數據挖掘課程

最後,考慮獲得關於數據挖掘和數據科學的證書或高級學位,如MS-見KDnuggets關於分析、數據挖掘和數據科學教育的目錄

5 數據

你需要數據進行分析-見KDnuggets關於數據挖掘的目錄,包含:

政府、聯邦、州、城市、本地和公共數據站點和門戶

數據API、集線器、商場、平台、門戶和搜索引擎

免費公共數據集

6 競爭

再一次強調,最好是邊學邊做,所以在學習的同時也可以參加Kaggle競賽 -從初學者競賽開始,比如使用機器學習預測泰坦尼克號生存

7 交流:會議、團體和社交網路

你可以加入許多同類團體-見關於分析、大數據,數據挖掘以及數據科學前30的 LinkedIn組織。

AnalyticBridge是一個分析和數據科學活躍的社區。

你也可以參加一些關於分析、大數據、數據挖掘、數據科學與知識發現的會議和研討會

此外,考慮加入ACM SIGKDD,它會舉辦一年一度的KDD大會——該領域領先的研究會議。


我比較贊同劉希漢的觀點。以下補充一下自己的看法。

1. Data Scientist是數據領域的複合性崗位,要求具備很高的計算機,軟體編程和統計學習與分析技術和技能,工作可以覆蓋整個數據處理加工周期;

2. 數據分析師,側重於利用統計學,數學知識對數據進行統計,挖掘,得出分析結論,提交分析報告,大部分數據分析師不具備較強的前兩種技能,工作在數據工作的後期;


因為沒人清楚,所以大家都按工程師和科學家的區別來答了。

因為沒人清楚,所以這個問題不會比你今天又多學了什麼工具,演算法,方法更重要。

因為沒人清楚,所以實際解決問題相對重要。


謝邀。我覺得數據科學家這個行業還在形成期,所以很難有準確的定義。我覺得 @Levin菠蘿 的回答很好了,有引用Analyzing the Analyzers一文,剛好我在另一處有相似的回答:職業規劃:Data Scientist(數據科學家) 和 Software Developer,如何選擇?


感謝@靳遠 告知的Drew Conway"s data scientist Venn diagram, 數據科學家就是綜合應用軟硬體技能、數學統計技能、業務知識的人。 數據分析師可能偏重一部分吧。


謝邀。已經有很多優秀的答案了,補充一個個人認為比較重要的角度:

數據科學家與數據分析師所處理的問題來源不同。

數據科學家需要通過觀察與思考,自己提出問題並解決。而數據分析師則是從業務團隊那裡獲取問題,並提供解決方案。

要擺脫職位title的迷惑,判斷一家企業究竟招聘的是數據科學家還是數據分析師,最好的辦法就是問他們:「需要我解決什麼問題?」如果答案非常具體細緻,與業務高度相關,那麼他們需要的多半是數據分析師。如果回答是「我們也不清楚「,或者」幫我們提高點擊率「這樣比較籠統的答案,數據科學家就能發揮作用了。

另外,數據分析師一般不需要建立統計和機器學習的模型,也不需要編寫較複雜的程序。但他們往往需要精通Excel,同時對SQL非常熟練。

以上。


經常被問到這樣一個問題:數據分析師,大數據開發工程師,大數據經理,數據科學家有什麼區別?

然而網上給的答案看完也讓人摸不著頭腦。其實用一句話就可以回答:

簡單講就是:初級職員,中級職業,高級職員的關係,通俗點說就是:數據分析師是初級,數據產品經理是中級,科學家是高級。就和你打遊戲闖關升級別一個道理。

下面是最新的各數據崗位中,月工資中位數供你參考

連接我,在微信公眾號:猴子聊人物,中回復「猴子」


Quora 上的最佳答案 http://qr.ae/RgPE4h

基本上區別就是數據分析師(data analyst)和大數據關係不大,是任何一個適當規模的公司都可以有的,而數據科學家(data scientist)是隨大數據的出現而產生的,由於數據規模的問題而需要engineering/statistics/analytics等多方面綜合技能和知識。


謝邀。

Levin菠蘿說的已經很全面,我補充一下自己的看法。

在企業里,與數據相關的職位很多。相較於架構師、倉庫開發、數據挖掘工程師,數據科學家要更接近數據分析師。前三者職責是數據的架構、清洗、抽取、聚類、分類等整個將非結構化數據逐漸結構化的過程(數據——數據);而數據分析師是從結構化或非結構化的數據中提煉信息和價值(數據——信息)。

數據分析師對業務要求高於對技術的要求,你可以只會excel,也可以懂hadoop、mapreduce,會從hive里提數,會用機器學習演算法去做挖掘,會做各種類型的數據可視化,但前提是一定能直接產出對業務有價值的分析結論,其他技術僅僅是工具。

而如果一個數據分析師,具備了從原始數據到最終價值呈現整個過程中的原理、方法,可以獨力的完成整個過程,並能產出商業價值較高的分析報告,那麼可以冠以數據科學家的名號了。


樓上說得對,具體來說,分析師是engineer,要做項目有kpi的,是中短期項目,解決的現在需求,科學家是做research的,是中長期項目,解決的是現在解決不了或者解決起來特別麻煩,或者是將來才可能遇到的問題。


用代碼

select max(column) from table 數據分析師……

bayes(c1,c2,3,9) 數據科學家……


data analyst 和 data scientist,請看圖:

另外,推薦一個coursera上的課程,week2有講business analyst, business data analyst和data scientist的職能,及對三者的採訪:

https://www.coursera.org/learn/analytics-business-metrics/home/week/2


謝邀。來晚了。

本來看完 @劉希漢的答案覺得 嗯差不多了 可以走了,可是手滑了一下發現下面答案不止菠蘿同學在"誤人子弟",有點擔心。

既然別人說的差不多了,那就總結一下,補充一點。:)))

1.關於劉希漢對於菠蘿所說的回歸屬於初級的質疑,我非常同意。OLS作為回歸學習的初步,的確很容易讓人混淆。

這裡是一篇我半個月前看過的文章,對於這個問題是很好的補充。

10 types of regressions. Which one to use?

雖然是半個月前看的,要找它出來實在是累死我。。。

2.當我看到data analyst面對企業,data scientist面對研究的時候,我先是楞了一下,因為這句話真的超出我的認知範圍了。記著這句話是不對的就好了。

3. @vieplivee所說data scientist是一個team,我是同意的。

「Data Scientists往往可以獨立完成一條龍的完整分析過程:從數據提取,整合、並進行分層,進行統計或其他複雜的分析,創造引人注目的可視化詮釋和效果,開發具有更寬廣應用前景的數據工具。」(劉同學那兒粘貼的)

數據提取,整合,分層-資料庫方面,是有data engineer,data architect等職位

統計或其他複雜的分析-機器學習之類

創造引人注目的可視化詮釋和效果-visualization part

開發具有更寬廣應用前景的數據工具-Business Intelligence

這實際上是一個完整的project的過程,data scientist是要求對所有這些方面都有了解,但也只要有一兩個精通就差不多了。所以要一整個team合作完成所有工作。

http://assets.en.oreilly.com/1/eventseries/23/Building-Data-Science-Teams.pdf

又是一頓好找。已經不怎麼記得這個冊子說了些什麼了,希望有幫助。

4.徐懿前面說的現狀我都同意,只是最後一句比喻「「數據科學家是畫樓房圖紙的,數據分析師是根據圖紙蓋大樓的「有點問題,給我一種數據科學家是寫macro,數據分析師是用macro的感覺,不是不對,感覺是正確的,這麼描述總是怪怪的。

5.關於 @Levin菠蘿同學後補的 「不妨假設這樣一個場景,對於一個已經運營了30年甚至更久的企業(呃甚至可以理解為某些不大又不小的國企和央企)來說,被科技的浪潮推著前進,數據急需一個更專業更高效的管理的時候,是否對於資料庫管理員、資料庫工程師的需求要更大一些。至於利用數據這個事情,經驗還可以用好一會,大可以等到數據已經科學地管理起來之後再議。反正也拖沓了這麼多年。不用懷疑,在it、互聯網等高科技行業以外,在諮詢行業以外,在各種傳統行業里,多的是這樣的企業。」

很多地方都有待商榷。

「是否對於資料庫管理員,資料庫工程師的需求要更大一些?」 --查一下job feeds, 這個真的不屬實。

「至於利用數據這個事情,經驗還可以用好一會,大可以等到數據已經科學地管理起來之後再議。反正也拖沓了這麼多年。」-- 經驗還可以用好一會兒是因為我們知道的好方法真正在行業中利用的只是很少一部分,而不是因為資料庫管理還不夠發達跟不上我門能使用的方法。事實恰恰相反,資料庫管理再不濟也已經足夠應付高級分析方法了,大家天天聊data scientist 的原因難道不是說 有很多數據收在手裡 不知道怎麼使用么??

「不用懷疑,在it、互聯網等高科技行業以外,在諮詢行業以外,在各種傳統行業里,多的是這樣的企業。」--多的是哪種企業?等著數據管理起來還是等著有人會用數據?這些行業里的確可能沒有像樣的資料庫,但是沒有像樣資料庫的企業自己就沒想著要分析。多的其實是有資料庫(算上excel吧,要合國情)不會分析的企業。

話說我最難過的一件事是有次跟二線城市統計局的員工聊天,她睜著眼睛問我 還有統計這個專業?她很吃驚,我也很吃驚。。。到底是缺什麼,不是很清楚么?

6. 既然說到區別,下一個又是如何成為data scientist的問題。雖然國內現在只是嫩苗階段,附圖一張,希望有幫助。


我看了下答案很多都是瞎jb扯淡;國內BAT這種大公司根本沒有嚴格意義上的data scientist一說,這個title拿來忽悠學生(我學生的時候也很嚮往這個title)還行,在業界沒人說的(美國例外);

數據分析是做bi用的,有聽說過公司領導人是從做bi的人升上去的么;

我知道的title基本上都是數據演算法工程師,數據挖掘工程師,自然語言處理工程師,機器學習工程師;想要積累實力,到帶團隊的積累,做數據分析或者演算法遠不夠的,還是得有工程方面的能力;


發個圖來回答題主的問題。

--------------------------------------------------------------------------------------------------------------------------------------------

聲明:這幅圖我不是原創,是在北郵陳老師的微博里看到的。微博地址:愛可可-愛生活的微博

-------------------------------------------------------------------------------------------------------------------------------------------


推薦閱讀:

數據科學(Data Science/Analytics)出身,可以在諮詢行業做些什麼?
數據科學家 (Data Scientist) 的職業發展路徑是什麼?
大數據熱潮是泡沫么?
Python在數據科學領域能否完全取代R?
2016 年,美國舊金山灣區就業形勢如何?

TAG:數據分析師 | 數據科學家 | IT職場 |