大數據到底怎麼學：數據科學概論與大數據學習誤區

08-21

來自專欄阿杜白話大數據4 人贊了文章

「數據科學家走在通往無所不知的路上，走到盡頭才發現，自己一無所知。」-Will Cukierski，Head of Competitions & Data Scientist at Kaggle

最近不少網友向我諮詢如何學習大數據技術？大數據怎麼入門？怎麼做大數據分析？數據科學需要學習那些技術？大數據的應用前景等等問題。由於大數據技術涉及內容太龐雜，大數據應用領域廣泛，而且各領域和方向採用的關鍵技術差異性也會較大，難以三言兩語說清楚，本文從數據科學和大數據關鍵技術體系角度，來說說大數據的核心技術什麼，到底要怎麼學習它，以及怎麼避免大數據學習的誤區，以供參考。

1．大數據應用的目標是普適智能

要學好大數據，首先要明確大數據應用的目標，我曾經講過大數據就好比萬金油，像百度幾年前提的框計算，這個框什麼都能往裡裝。為什麼會這樣，因為大數據這個框太大，其終極目標是利用一系列信息技術實現海量數據條件下的人類深度洞察和決策智能化，最終走向普適的人機智能融合！這不僅是傳統信息化管理的擴展延伸，也是人類社會發展管理智能化的核心技術驅動力。通過大數據應用，面向過去，發現數據規律，歸納已知；面向未來，挖掘數據趨勢，預測未知。從而提高人們對事物的理解和決策處置能力，最終實現社會的普適智能。不管是商業智能，機器智能，人工智慧，還是智能客服，智能問答，智能推薦，智慧醫療、智慧交通等相關技術和系統，其本質都是朝著這一目標在演進。隨著雲計算平台和大數據技術的高速發展，獲得大數據基礎設施建設相關技術和支持越來越容易。同時，移動互聯網和物聯網技術所具備的全面數據採集能力，客觀上促進了大數據的積累和爆發。總之大數據就是個大框，什麼都能往裡裝，大數據源的採集如果用感測器的話離不開物聯網、大數據源的採集用智能手機的話離不開移動互聯網，大數據海量數據存儲要高擴展就離不開雲計算，大數據計算分析採用傳統的機器學習、數據挖掘技術會比較慢，需要做並行計算和分散式計算擴展，大數據要自動特徵工程離不開深度學習、大數據要互動展示離不開可視化，而面向特定領域和多模態數據的大數據分析技術更是十分廣泛，金融大數據、交通大數據、醫療大數據、安全大數據、電信大數據、電商大數據、社交大數據，文本大數據、圖像大數據、視頻大數據…諸如此類等等範圍太廣，所以首先我們要搞清楚大數據應用的核心目標，這個明確之後，才利於結合不同行業特點把握住共性關鍵技術，從而有針對性的學習。

圖1 國外大數據企業關係圖，傳統信息技術企業也在向智能化發展，與新興大數據企業互為競爭和支持。

2．從大數據版圖看數據科學及其關鍵技術體系

明確大數據應用目標之後，我們再看看數據科學（Data Science），數據科學可以理解為一個跨多學科領域的，從數據中獲取知識的科學方法，技術和系統集合，其目標是從數據中提取出有價值的信息，它結合了諸多領域中的理論和技術，包括應用數學，統計，模式識別，機器學習，人工智慧，深度學習，數據可視化，數據挖掘，數據倉庫，以及高性能計算等。圖靈獎得主Jim Gray把數據科學喻為科學的「第四範式」（經驗、理論、計算和數據驅動），並斷言因為信息技術的影響和數據的泛濫增長，未來不管什麼領域的科學問題都將由數據所驅動。

圖2 典型的數據科學過程：包括原始數據採集，數據預處理和清洗，數據探索式分析，數據計算建模，數據可視化和報表，數據產品和決策支持等。

傳統信息化技術多是在結構化和小規模數據上進行計算處理，大數據時代呢，數據變大了，數據多源異構了，需要智能預測和分析支持了，所以核心技術離不開機器學習、數據挖掘、人工智慧等，另外還需考慮海量數據的分散式存儲管理和機器學習演算法並行處理，所以數據的大規模增長客觀上促進了DT（Data Technology）技術生態的繁榮與發展，包括大數據採集、數據預處理、分散式存儲、NOSQL資料庫、多模式計算（批處理、在線處理、實時流處理、內存處理）、多模態計算（圖像、文本、視頻、音頻）、數據倉庫、數據挖掘、機器學習、人工智慧、深度學習、並行計算、可視化等各種技術範疇和不同的層面。可見DT這種新技術泛型生態下的大數據版圖十分龐雜，當然也有泡沫的成分存在，這個版圖也會時刻處於變化之中，就像PC時代的應用程序，互聯網上的網站，移動互聯網的APP，大數據時代的技術和產品也正處於優勝劣汰的過程。下面我們來看2017版的大數據版圖：

圖3 國外和國內中關村大數據產業版圖（包括數據、技術、應用、企業等）

上述大數據版圖基本涵蓋了國外大數據相關技術和產業鏈（國內中關村版的大數據技術和企業還是太少，多是傳統信息技術企業在湊數），從大數據源，開源技術框架，大數據基礎設施建設，大數據核心的計算挖掘分析，大數據行業應用等方面進行了相關技術、產品和企業的展示。大數據產業鏈從數據源〉開源技術〉基礎設施〉分析計算〉行業應用到產品落地，每個鏈條環節和下轄的細分內容都涉及大量數據分析技術。不管是學習技術還是開發產品，分析和理解這個大數據產業版圖都十分必要。版圖細節不做贅述，我們重點從學習的角度來看DT（Data technology）技術泛型下包括那些核心技術，各技術領域之間是什麼樣的邏輯關係，這是學習大數據首先要搞清楚的問題：

（1）機器學習（machine learning）：首先我們說說機器學習，為什麼先說它，因為機器學習是大數據處理承上啟下的關鍵技術，機器學習往上是深度學習、人工智慧，機器學習往下是數據挖掘和統計學習。機器學習屬於計算機和統計學交叉學科，核心目標是通過函數映射、數據訓練、最優化求解、模型評估等一系列演算法實現讓計算機擁有對數據進行自動分類和預測的功能，機器學習領域包括很多種類的智能處理演算法，分類、聚類、回歸、相關分析等每類下面都有很多演算法進行支撐，如SVM，神經網路，Logistic回歸，決策樹、EM、HMM、貝葉斯網路、隨機森林、LDA等，無論是網路排名的十大演算法還是二十大演算法，都只能說是冰山一角，隨著深度學習核心技術的突破性發展，機器學習演算法得以高速擴張；總之大數據處理要智能化，機器學習是核心的核心，深度學習、數據挖掘、商業智能、人工智慧，大數據等概念的核心技術就是機器學習，機器學慣用於圖像處理和識別就是機器視覺，機器學慣用於模擬人類語言就是自然語言處理，機器視覺和自然語言處理也是支撐人工智慧的核心技術，機器學慣用於通用的數據分析就是數據挖掘。深度學習（deep learning）是機器學習裡面現在比較火的一個子領域，屬於原來人工神經網路演算法的一系列變種，由於在大數據條件下圖像，語音識別等領域的學習效果顯著，有望成為人工智慧取得突破的關鍵性技術，所以各大研究機構和IT巨頭們都對其投入了極大的關注。

（2）數據挖掘（data mining），數據挖掘可以說是機器學習的一個超集，是一個較為寬泛的概念，類似於採礦，要從大量礦石裡面挖出寶石，從海量數據裡面挖掘有價值有規律的信息同理。數據挖掘核心技術來自於機器學習領域，如深度學習是機器學習中一類比較火的演算法，當然也可以用於數據挖掘。還有傳統的商業智能（BI）領域也包括數據挖掘，OLAP多維數據分析可以做挖掘分析，甚至Excel基本的統計分析也可以做挖掘。關鍵是你的技術能否真正挖掘出有用的信息，然後這些信息可以指導決策。數據挖掘的提法比機器學習要早，應用範圍要廣，數據挖掘和機器學習是大數據分析的核心技術，互為支撐，為大數據處理提供相關模型和演算法，而模型和演算法是大數據處理的關鍵，探索式互動式分析、可視化分析、數據的採集存儲和管理等都較少用到學習模型。

（3）人工智慧（artifical intelligence），AI和大數據是相互促進的關係，一方面，AI基礎理論技術的發展為大數據機器學習和數據挖掘提供了更豐富的模型和演算法，如近幾年的深度學習一系列技術（強化學習、對抗學習等）和方法；另一方面，大數據為AI的發展提供了新的動力和燃料，數據規模大了之後，傳統機器學習演算法面臨挑戰，要做並行化、要加速要改進。AI的終極目標是機器智能化擬人化，機器能完成和人一樣的工作，人腦僅憑几十瓦的功率，能夠處理種種複雜的問題，怎樣看都是很神奇的事情。雖然機器的計算能力比人類強很多，但人類的理解能力，感性的推斷，記憶和幻想，心理學等方面的功能，機器是難以比肩的，所以機器要擬人化很難單從技術角度把人工智慧講清楚。人工智慧與機器學習的關係，兩者的相當一部分技術、演算法都是重合的，深度學習在計算機視覺和棋牌走步等領域取得了巨大的成功，比如谷歌自動識別一隻貓，谷歌的AlpaGo還擊敗了人類頂級的專業圍棋手等。但深度學習在現階段還不能實現類腦計算，最多達到仿生層面，情感，記憶，認知，經驗等人類獨有能力機器在短期難以達到。

（4）其它大數據處理基礎技術，如圖4，大數據基礎技術包括計算機科學相關如編程、雲計算、分散式計算、系統架構設計等方向，還有機器學習的理論基礎包括如演算法、數據結構、概率論、代數、矩陣分析、統計學習、特徵工程等方面；商業分析與理解如領域知識管理、產品設計、可視化等技術；數據管理如數據採集、數據預處理、資料庫、數據倉庫、信息檢索、多維分析、分散式存儲等技術。這些理論與技術是為大數據的基礎管理、機器學習和應用決策等多個方面服務的。

圖4 數據科學的技術維度

上圖是數據科學的5個技術維度，基本涵蓋了數據科學的關鍵支撐技術體系，從數據管理、計算機科學基礎理論技術、數據分析、商業理解決策與設計幾個方面進行了數據科學相關技術的梳理，其中計算機科學基礎理論方法與數據分析兩個板塊的學習內容是最多的，也是最重要的。現階段的大數據產品和服務多是在數據管理版塊，分析板塊和業務決策板塊的對接是數據科學和大數據產業後續發展的關鍵突破點。另外圖中的Art&Design版塊只列了交通溝通和可視化，其實還不夠，這個藝術（Art）還說明了數據科學與傳統信息化技術的本質不同，數據科學的核心能力是根據問題提出設想，再把設想轉化為學習模型，這種能力是要講藝術的，沒有這樣的設計藝術，計算機要智能化不是那麼容易。為什麼上升為藝術了？因為經驗告訴我們，把現實問題轉化為模型沒有標準答案，可選的模型不只一種，技術路線多樣，評價指標也有多個維度，甚至優化方法也有很多種，機器學習的本質就是在處理這門藝術，給定原始數據、限制條件和問題描述，沒有標準答案，每種方案的選擇就是一種設想假設，需要具備利用精確的測試和實驗方法來驗證和證偽這些假設的能力，從這個層面講，未來所有科學問題以及商業、政府管理決策問題都將是數據科學問題，而機器學習是數據科學的核心。

3．大數據盲人摸象：如何構建完整的知識結構和分析能力

從數字化、信息化、網路化到未來的智能化時代，移動互聯網、物聯網、雲計算、大數據、人工智慧等前沿信息技術領域，逐個火了一遍。也代表了信息技術發展的大趨勢，什麼是大數據，大數據的技術範疇及其邏輯關係，估計很多人都是根據自己所熟悉的領域在盲人摸象（如圖5）。其實我這裡講的盲人摸象並不是貶義，畢竟一個領域的學習到精通就是從盲人摸象式開始的。大數據、數據科學都是很虛的一個概念，分析目標和採用技術都包羅萬象，就好比寫程序，分前端和後端，分B/S和C/S，分嵌入式、企業應用和APP等，開發語言更是有數十種，不同方向所需要的技術也是大不相同。

圖5 大數據盲人摸象

所以怎麼從點到面，構建大數據領域完整的知識結構和分析能力至關重要，某方面的技術和語言只是工具而已。大數據知識結構，就是既有精深的大數據基礎理論知識，又有廣博的知識面和應用全局觀，具有大數據產業發展所需要的最合理、最優化、最關鍵的核心技術與知識體系。通過合理的知識結構和科學的大數據思維方法，提高大數據分析實戰技能。這個目標很大，但還是可以達到的，首先要搞清楚大數據產業鏈的情況，接下來要明確大數據技術棧也就是相關技術體系，最後定下學習目標和應用方向，是面對什麼行業的數據，是關注存儲還是機器學習，數據規模是什麼量級，數據類型是文本、圖像、網頁還是商業資料庫？每個方向所用技術有較大差異，需要找准學習的興趣點和切入點。

圖6 大數據技術棧與學習路線參考圖

上面這個大數據技術棧和學習路線圖，可以說是一個大數據學習的總綱，專業性很強，值得初學者深入研究和理解，對我在前面提到的數據科學技術體系來講，是更豐富的補充。比如基礎學習部分包括線性代數、關係代數、資料庫基礎、CAP理論、OLAP、多維數據模型、數據預處理ETL等都分析得很到位。總之大數據學習不能像炒菜一樣，等到把所有材料準備好了才下鍋（因為這個領域技術體系龐雜應用目標廣泛，就算學個十年二十年也難以掌握其大部分核心理論技術），而是結合自己的興趣或工作需求，找一個點猛扎進去，掌握這個點的相關技術，深入理解其分析的流程、應用和評價等環節，搞透徹一個點之後，再以點帶面，舉一反三，逐步覆蓋大數據各個領域，從而構建完整的知識結構和技術能力體系，這才是大數據學習的最佳路徑。

4．大數據要怎麼學：數據科學特點與大數據學習誤區

（1）大數據學習要業務驅動，不要技術驅動：數據科學的核心能力是解決問題。大數據的核心目標是數據驅動的智能化，要解決具體的問題，不管是科學研究問題，還是商業決策問題，抑或是政府管理問題。所以學習之前要明確問題，理解問題，所謂問題導向、目標導向，這個明確之後再研究和選擇合適的技術加以應用，這樣才有針對性，言必hadoop,spark的大數據分析是不嚴謹的。不同的業務領域需要不同方向理論、技術和工具的支持。如文本、網頁要自然語言建模，隨時間變化數據流需要序列建模，圖像音頻和視頻多是時空混合建模；大數據處理如採集需要爬蟲、倒入導出和預處理等支持，存儲需要分散式雲存儲、雲計算資源管理等支持，計算需要分類、預測、描述等模型支持，應用需要可視化、知識庫、決策評價等支持。所以是業務決定技術，而不是根據技術來考慮業務，這是大數據學習要避免的第一個誤區。

（2）大數據學習要善用開源，不要重複造輪子：數據科學的技術基因在於開源。IT前沿領域的開源化已成不可逆轉的趨勢，Android開源讓智能手機平民化，讓我們跨入了移動互聯網時代，智能硬體開源將帶領跨入物聯網時代，以Hadoop和Spark為代表的大數據開源生態加速了去IOE（IBM、ORACLE、EMC）進程，倒逼傳統IT巨頭擁抱開源，谷歌和OpenAI聯盟的深度學習開源（以Tensorflow,Torch,Caffe等為代表）正在加速人工智慧技術的發展。數據科學的標配語言R和Python更是因開源而生，因開源而繁榮，諾基亞因沒把握開源大勢而衰落。為什麼要開源，這得益於IT發展的工業化和構件化，各大領域的基礎技術棧和工具庫已經很成熟，下一階段就是怎麼快速組合、快速搭積木、快速產出的問題，不管是linux,anroid還是tensorflow，其基礎構件庫基本就是利用已有開源庫，結合新的技術方法實現，組合構建而成，很少在重複造輪子。另外，開源這種眾包開發模式，是一種集體智慧編程的體現，一個公司無法積聚全球工程師的開發智力，而一個GitHub上的明星開源項目可以，所以要善用開源和集體智慧編程，而不要重複造輪子，這是大數據學習要避免的第二個誤區。

（3）大數據學習要以點帶面，不貪大求全：數據科學要把握好碎片化與系統性。根據前文的大數據技術體系分析，我們可以看到大數據技術的深度和廣度都是傳統信息技術難以比擬的。我們的精力很有限，短時間內很難掌握多個領域的大數據理論和技術，數據科學要把握好碎片化和系統性的關係。何為碎片化，這個碎片化包括業務層面和技術層面，大數據不只是谷歌，亞馬遜，BAT等互聯網企業，每一個行業、企業裡面都有它去關注數據的痕迹：一條生產線上的實時感測器數據，車輛身上的感測數據，高鐵設備的運行狀態數據，交通部門的監控數據，醫療機構的病例數據，政府部門的海量數據等等，大數據的業務場景和分析目標是碎片化的，而且相互之間分析目標的差異很大；另外，技術層面來講，大數據技術就是萬金油，一切服務於數據分析和決策的技術都屬於這個範疇，其技術體系也是碎片化的。那怎麼把握系統性呢，不同領域的大數據應用有其共性關鍵技術，其系統技術架構也有相通的地方，如系統的高度可擴展性，能進行橫向數據大規模擴張，縱向業務大規模擴展，高容錯性和多源異構環境的支持，對原有系統的兼容和集成等等，每個大數據系統都應該考慮上述問題。如何把握大數據的碎片化學習和系統性設計，離不開前面提出的兩點誤區，建議從應用切入、以點帶面，先從一個實際的應用領域需求出發，搞定一個一個技術點，有一定功底之後，再舉一反三橫向擴展逐步理解其系統性技術。

（4）大數據學習要勇於實踐，不要紙上談兵：數據科學還是數據工程？大數據只有和特定領域的應用結合起來才能產生價值，數據科學還是數據工程是大數據學習要明確的關鍵問題，搞學術發paper數據科學OK，但要大數據應用落地，如果把數據科學成果轉化為數據工程進行落地應用，難度很大，這也是很多企業質疑數據科學價值的原因。且不說這種轉化需要一個過程，從業人員自身也是需要審視思考的。工業界包括政府管理機構如何引入研究智力，數據分析如何轉化和價值變現？數據科學研究人員和企業大數據系統開發工程人員都得想想這些關鍵問題。目前數據工程要解決的關鍵問題主線是數據(Data)>知識(Knowledge)>服務(Service)，數據採集和管理，挖掘分析獲取知識，知識規律進行決策支持和應用轉化為持續服務。解決好這三個問題，才算大數據應用落地，那麼從學習角度講，DWS就是大數據學習要解決問題的總目標，特別要注重數據科學的實踐應用能力，而且實踐要重於理論。從模型，特徵，誤差，實驗，測試到應用，每一步都要考慮是否能解決現實問題，模型是否具備可解釋性，要勇於嘗試和迭代，模型和軟體包本身不是萬能的，大數據應用要注重魯棒性和實效性，溫室模型是沒有用的，訓練集和測試集就OK了嗎？大數據如何走出實驗室和工程化落地，一是不能閉門造車，模型收斂了就想當然萬事大吉了；二是要走出實驗室充分與業界實際決策問題對接；三是關聯關係和因果關係都不能少，不能描述因果關係的模型無助於解決現實問題；四是注重模型的迭代和產品化，持續升級和優化，解決新數據增量學習和模型動態調整的問題。所以，大數據學習一定要清楚我是在做數據科學還是數據工程，各需要哪些方面的技術能力，現在處於哪一個階段等，不然為了技術而技術，是難以學好和用好大數據的。

（5）大數據學習的三個階段：不同階段的技術路線各有側重，把握主要矛盾。在大數據應用實施過程中，由於技術和成本考慮，不可能短時間內解決所有問題，大數據應用本身有其規律和特點，比如分析目標一定是要跟數據規模匹配，分析技術的採用取決於數據結構和數據源條件，數據集成一定要覆蓋比較全面的業務背景，關鍵環節數據不能有缺失等等。大數據學習可以根據應用目標分三個階段：1）大數據基礎設施建設階段：這個階段的重點是把大數據存起來，管起來，能用起來，同時要考慮大數據平台和原有業務系統的互通聯合問題。一句話，做好全局數據集成解決數據孤島問題！要完成大數據基礎設施系統建設開發，需要明確數據採集、存儲和分析各層核心組件的選型和使用，搭建穩定的大數據集群，或選擇私有雲方案的服務集群，與生產系統併線運行，使待分析的歷史數據和實時數據得以採集並源源不斷流入大數據系統。這個階段的關鍵技術學習包括採集爬蟲、數據介面、分散式存儲、數據預處理ETL、數據集成、資料庫和數據倉庫管理、雲計算和資源調度管理等等內容。2）大數據描述性分析階段：此階段主要定位於離線或在線對數據進行基本描述統計和探索式可視化分析，對管理起來的大數據能進行海量存儲條件下的互動式查詢、匯總、統計和可視化，如果建設了BI系統的，還需整合傳統BI技術進行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型數據挖掘分析。這個基礎分析階段是對數據集成質量的檢驗，也是對海量數據條件下的分散式存儲管理技術應用穩定性的測試，同時要能替代或集成傳統BI的各類報表。這個階段的關鍵技術學習包括可視化、探索式互動式分析、多維分析、各類基本報表和圖表的查詢設計等等。3）大數據高級預測分析和生產部署階段：在初步描述分析結果合理，符合預期目標，數據分散式管理和描述型分析穩定成熟的條件下，可結合進一步智能化分析需求，採用如深度學習等適用海量數據處理的機器學習模型，進行高級預測性挖掘分析。並通過逐步迭代優化挖掘模型和數據質量，形成穩定可靠和性能可擴展的智能預測模型，並在企業相關業務服務中進行分析結果的決策支持，進行驗證、部署、評估和反饋。這個階段的關鍵技術包括機器學習建模、決策支持、可視化、模型部署和運維等。

在上述幾個階段的技術學習過程中，需要注意幾個關鍵問題：一是重視可視化和業務決策，大數據分析結果是為決策服務，而大數據決策的表現形式，可視化技術的優劣起決定性作用；二是問問自己，Hadoop、Spark等是必須的嗎？要從整個大數據技術棧來考慮技術選型和技術路線的確定；三是建模問題處於核心地位，模型的選擇和評估至關重要，在課堂和實驗室中，多數模型的評估是靜態的，少有考慮其運行速度、實時性及增量處理，因此多使用複雜的臃腫模型，其特徵變數往往及其複雜。而Kaggle競賽中的各種Boost方法，XGBDT、隨機森林等模型，在數據挖掘和機器學習教材中卻少有提及，所以要充分參考業界實戰經驗不能盡信書；四是開發語言的選擇，基礎框架系統Java是必須掌握的，應用級的機器學習和數據分析庫Python是必須掌握的，而要深入各種框架和學習庫的底層，C++是必須掌握的；五是模型的產品化，需要將實際數據通過管道設計轉換為輸入特徵傳遞給模型，如何最小化模型在線上和線下的表現差距，這些都是要解決關鍵的問題。

（6）其它補充：Kaggle,眾包與培訓。眾包是一種基於互聯網的創新生產組織形式，企業利用網路將工作分配出去，通過讓更合適的人群參與其中來發現創意和解決問題，如維基百科，還有IT資源社區GitHub，都是典型的眾包平台。眾包+開源極大推動了IT產業的快速發展，當然Kaggle作為數據科學領域頂級的眾包平台，其影響力遠不止於此（所以剛剛被谷歌收購）。企業和研究者可在Kaggle上發布數據，數據分析人員可在其上進行競賽以產生最好的模型。這一眾包模式本質就是集體智慧編程的體現，即有眾多策略可以用於解決幾乎所有預測建模問題，而分析人員不可能一開始就能找到最佳方案，Kaggle的目標就是通過眾包的形式來解決這一難題，進而使數據科學成為一場集體智慧運動。所以說要學好大數據，嚴重推薦去Kaggle沖衝浪，很好的歷練平台。至於大數據培訓嘛，基礎理論和技術還不甚了解的情況下可以去培訓學習，有基礎之後還得靠自己多練多解決實際問題。

5．結論與展望

做個小結，大數據不是銀彈（Silver Bullet），大數據的興起只是說明了一種現象，隨著科技的高速發展，數據在人類生活和決策中所佔的比重越來越大。面對如此廣度和深度的大數據技術棧和工具集，如何學習和掌握好大數據分析這種技能，猶如盲人摸象，冷暖自知。不過技術的學習和應用也是相通的，條條大路通羅馬，關鍵是要找准切入點，理論與實踐結合，有全局觀，工程化思維，對複雜系統設計開發與關鍵技術體系的主要矛盾要有所把握。熟悉大數據基礎理論與演算法、應用切入、以點帶面、舉一反三、橫向擴展，從而構建完整的大數據知識結構和核心技術能力，這樣的學習效果就會好很多。另外，技術發展也遵循量變到質變規律，人工智慧+物聯網+大數據+雲計算是四位一體發展的（時間有先後，但技術實質性突破都在最近幾年），未來智能時代的基礎設施、核心架構將基於這四個層面，這種社會演化趨勢也很明顯：農業時代〉工業時代〉互聯網時代〉智能化時代。在這個四位一體智能技術鏈條裡面，物聯網重在數據採集，雲計算重在基礎設施，大數據技術處於核心地位，人工智慧則是發展目標，所以學習大數據技術還需要對這四個方面加以綜合研究和理解。最後潑點冷水，簡單說說大數據的前景，未來大數據崗位需求不會有媒體宣傳的那麼多，大數據具體工作不會有美國大片里那麼炫酷，不要老盯著BAT，我國大數據的發展還處於初級階段。總之技術歸於技術，實踐才能出真知，落地解決問題是關鍵，Palantir也是十年才磨出一劍。不過在大數據時代，人人都得懂點數據分析，這倒是最實在的，不懂編程？那就學Python吧，如果說人工智慧時代的大媽和小學生都能編程的話，那一定用的是Python：）

來源：點金大數據作者：杜聖東備註：本文圖片來源於網路