大數據如何轉人工智慧？

07-11

這麼來比喻吧，如果把大數據比作燃料，那麼人工智慧就是燃油機了。

不同功率的燃油機的發力不同，好的演算法就是大功率的燃油機，有更快的速度和機動性。而做數據的人肯定知道，如果（大）數據足夠純粹，冗餘少，那麼這個數據分析起來解釋性強且具有說服力。

在大數據領域和人工智慧領域中，其實是互相交錯的，很難說互不涉及，特別是現在這個動不動就「大」數據的時代，數據量大和AI已經成為標配，所以說轉行還不如進一步學習人工智慧部分知識。

至於怎麼學習人工智慧，我這裡有一份可供參考的指南。如果你想把機器學習更靈活的應用於日常工作，學習一些基礎理論還是很有好處的，而且你並不需要完全弄懂。下面有幾個學習機器學習理論的理由。

（1）規劃和數據採集

數據採集真是一個昂貴和耗時的過程！那麼我需要採集哪些類型的數據？根據模型的不同，我需要多少數據？這個挑戰是否可行？

（2）數據假設和預處理

不同的演算法對數據輸入有不同的假設，那我應該如何預處理我的數據？我應該正則化嗎？假如我的模型缺少一些數據，它還穩定嗎？離群值怎麼處理？

（3）解釋模型結果

簡單的認為機器學習是一個「黑盒子」的概念是錯誤的。是的，並不是所有的結果都直接可以解釋，但你需要診斷自己的模型然後改善它們。我要怎麼評估模型是過擬合還是欠擬合？我要向業務利益相關者怎麼解釋這些結果？以及模型還有多少的改善空間？

（4）改進和調整模型

你的第一次訓練很少會達到最佳模式，你需要了解不同的調參和正則化方法的細微差別。如果我的模型是過擬合了，我該如何補救？我應該花更多時間在特徵工程上，還是數據採集上？我可以組合我的模型嗎？

（5）驅動商業價值

機器學習從來不會在真空中完成。如果你不了解武器庫中的工具，就無法最大化發揮它們的效能。在這麼多結果指標中，哪些是優化的參考指標？哪個更為重要？或者還有其他的演算法會表現更好嗎？

帶著這些問題，參考以下教材，你就可以很輕鬆地入門人工智慧。

《深度學習》

http://download.csdn.net/download/zx2fzx2f/10024228

《機器學習》（周志華著）

http://download.csdn.net/download/cser04/400323

《Spark機器學習》

http://download.csdn.net/download/yang198907/9838919

如果你對學習人工智慧和深度學習感興趣，可以訂閱我的頭條號，我會在這裡發布所有與演算法、機器學習以及深度學習有關的有趣文章。

（碼字不易，若文章對你幫助可點個贊~）

這麼說吧，如果說人工智慧是一顆參天大樹，那麼大數據就是這顆大樹的根，是它的基礎。樹根的粗細，直接影響到大樹的生長質量。

近年來人工智慧的火爆，也是得益於大數據的豐富、互聯網技術的進步。

回到正題，大數據的本質是海量的、多維度、多形式的數據。無論是機器人視覺、語音識別、在線翻譯、相機美顏等；都需要大數據去訓練。對的，是訓練，就好像是訓練小貓小狗。雖然在機器的模式中只有「0」和「1」，但通過深度學習與大數據的運用，人工智慧就可以對事物的發展趨勢做出一定的預判。

首先沒準確理解這個問題所想要表達的意思；如果是從業轉換的話，這個問題涉及到從工程到科研的跨度，工程重要的是體系架構設計，科研關注的是數學模型，需要紮實的理論基礎；如果是探討數據和智能的關係，可以說現在的人工智慧都是數據驅動的，通俗說就是從數據中學習規律，數據越多就越能學習到複雜規律，比如深度學習，數據就是認知環境，當然大數據的外延太廣，不是隨便的數據都能拿來作為學習，無論監督還是非監督。

大數據和智能沒有什麼關係，很多時候大數據的問題在演算法上都是很簡單的，只是因為數據裡面有這些信息，所以可以回答。

比如推薦，也就是看看你喜歡了ABC，那麼找1W同樣喜歡ABC的人發現其中8K個還喜歡D，然後就把D推薦給你。你覺得這個演算法說白了有什麼智能的成分嗎？

如果你要冒出一個新創意，那麼大數據根本做不到。