ABC的關係(《Greenplum:從大數據戰略到實現》預覽)
ABC是業內對於人工智慧(Artificial Intelligence、即AI),大數據(Big Data)和雲計算(Cloud Computing)在三種技術的首字母縮寫。這篇文章希望能夠在大數據的角度上解釋ABC的關係,並且展望大數據戰略對於企業、機構和社會重要性。
ABC三種技術在最近10年在資本和媒體的的熱度順序為:雲計算、大數據和人工智慧。而事實上技術的產生的順序確是發過來的,人工智慧最早, 大數據其次,而雲計算是最後出現的。在數字化三部曲的第一部《Cloud Foundry:從數字化戰略到實現》著作中作者詳細闡述了雲計算。雲計算帶來的巨大好處就是提供商品化的計算資源,以前只有政府和500強企業才能擁有的巨大計算資源,現在可以被一個創業公司所擁有。這個量變到質變的過程使得我們可以重新訪問一些計算機行業的難題。(一般來說,我們不比前人聰明,但是我們會在量變到質變的過程中有些機會重新訪問前人沒有機會解決的問題。)計算資源的富裕使得大數據技術能能夠以更低的門檻平民化。Pivotal Cloud Foundry 2.0的一個研發重點就是利用容器技術把Greenplum提供到雲上。2016年底Pivotal和阿里雲聯合發布了基於開源Greenplum的HybridDB大資料庫(環球網,《HybridDB正式上線 支持Greenplum大數據服務》2016年12月,http://china.huanqiu.com/citynews/2016-12/9816235.html)。2017年底Pivotal又和騰訊雲合作把開源Greenplum提供到騰訊雲上(馮雷,《Pivotal和騰訊雲在Greenplum5上合作背後的考量》2017年12月 https://digitx.cn/2017/12/24/pivotal-tencent-greenplum5-partnership/)雲計算平民化了大數據,使得大數據技術廣為企業所採用,企業也利用大數據養成了保管數據的習慣,把數據當作未被開採的資源。大數據的普及給人工智慧的最新分之機器學習帶來了意向不到的驚喜。谷歌研究院的F. Pereira, P. Norvig and A. Halevy發表了一片文章《數據的奇效》(Fernando. Pereira, Peter Norvig and Alon Halevy, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no. , pp. 8-12, 2009)。解釋了大量數據對於(機器學習)模型帶來的準確率的提高。Norvig也是《人工智慧:一種現代的方法》一書的聯合作者。早在谷歌之前,微軟研究院的Michele Banko和Eric Brill在他們的論文《擴展到非常非常大文本來去除自然語言歧義》( Banko and Brill, Scaling to Very Very Large Corpora for Natural Language Disambiguation, Proceedings of ACL, 2001)中採用了如[圖xx]展示了使用海量數據後各個機器模型的準確率都有大幅度提高。大量數據對模型精確程度的提高對於人工智慧(機器學習)的問題求解給出了一個新方向:用大量數據和大數據計算來提高人工智慧的結果。
大家對比一下自然語言翻譯在最近10年的利用大數據和計算進展就能感覺到這種力量。總結一下,現在我們有兩條路在人工智慧方向前進:
1. 設計新的機器學習模型,在前人的模型上有所創新,改進模型效果
2. 使用已經有的機器學習模型,但是利用前人所沒有的數據量和雲計算帶來的大數據計算來改進模型效果。
谷歌的Norvig曾經談到「我們沒有更好的演算法,但是有更多的數據」(Xavier Amatriain,In Machine Learning, What is Better: More Data or better Algorithms, https://www.kdnuggets.com/2015/06/machine-learning-more-data-better-algorithms.html,2015)。
明顯的Norvig是在鼓勵沿第二種方法進行創新,當然這不等於說第一種方法的創新就不重要。但是我想要指出的第一種方法的創新門檻要遠高於第二種,除了世界頂級的機構,普通機構很難建立所需要的資金、人才和配套的管理和文化來支撐第一種創新方法。但是第二種方法對於傳統的機構是可以重複和實踐的,按照已經有的方法論、成功案例和人才培訓實現基於大數據和機器學習的高階數字化轉型。
總結一下ABC的關係如下[圖xx]所示,C(雲計算)從量變到質變帶來前所未有和平民化的計算資源。企業和互聯網在數字化應用產生了大量的數據。這些數據和計算能力使得大數據技術普及到普通機構,而這些機構利用大數據來創建和改善現有的機器學習模型,帶來更好的人工智慧效果。
作者:Pivotal中國Head馮雷 本文刊發於Digitx.cn[ABC的關係(《Greenplum:從大數據戰略到實現》預覽)]
推薦閱讀:
※陳書悅:大數據可否幫助炒股?
※產品經理:一張表格理思路,行為數據打輔助
※HDFS中的Namenode和Datanode
※大數據時代來了,你準備好了嗎?
※擁抱20餘家主機廠,彩虹無線提供車聯網全產業鏈服務