送書|十年大數據,十年區塊鏈,兩技術如何共生演進?

作者 | 井底望天等人

編輯 | Natalie

AI前線出品| ID:ai-front

AI 前線導語:大數據的發展取得了重要的成果,但目前也面臨著數據流通不足的巨大挑戰。區塊鏈以其可追溯性、安全性和不可篡改性的技術將在解決數據互聯互通和開放共享的問題上發揮巨大作用。從長遠來看,區塊鏈與大數據的結合會給整個人類社會帶來天翻地覆的變化。本文節選自《區塊鏈與大數據:打造智能經濟》第四章。

注意啦,文末有送書福利!

「區塊鏈既是大數據的安全載體(存儲方式),又提供了數據使用的審計手段(賬本),還將扮演數據間化學作用的催化劑(智能合約)。區塊鏈與大數據的奇妙結合,將建構未來數據社會的基礎。本書揭示了兩者共生、交融和共同演化的萬般可能。」 ——吳甘沙 馭勢科技 CEO。

區塊鏈的技術沿革

區塊鏈基礎技術

點對點通信技術

點對點(P2P)通信技術是一種對等連接的互聯網技術,依賴網路中參與者共同的計算能力和帶寬,而不是把依賴都聚集在較少的幾台伺服器上。這類網路具有多種用途,各種檔案分享軟體已經廣泛使用。點對點通信技術也被應用在類似 VoIP 等實時媒體業務的數據通信中。

純點對點網路沒有客戶端或伺服器的概念,只有平等的同級節點,同時對網路上的其他節點充當客戶端和伺服器。這種網路設計模型不同於傳統的「客戶端—伺服器」模型,在「客戶端—伺服器」模型中通信通常來往於一個中央伺服器,而中央伺服器就是系統中的單點故障源頭。點對點通信技術形成的網路由於設計和實施方案的不同,也出現了不同的網路模型。

非對稱加密演算法

非對稱加密演算法需要兩個密鑰來進行加密和解密,其中一個是公開密鑰(Public Key),簡稱公鑰,另一個是私有密鑰(Private Key),簡稱私鑰。公鑰是可以公開的,也需要通過公共的渠道公開給相應的通信方;而私鑰是非對稱加密演算法中的關鍵,需要安全地保護好。公鑰與私鑰是一對,如果用公鑰對數據進行加密,只有用對應的私鑰才能解密;如果使用私鑰進行數據的簽名,只有公鑰可以來驗簽。

因為加密和解密使用的是兩個不同的密鑰,所以被稱為非對稱加密演算法。由非對稱加密演算法形成的非對稱加密體系解決了信息公開傳送和密鑰管理問題,是一種新的密鑰交換協議,允許在不安全媒體上的通信雙方交換信息,安全地達成一致的密鑰,這就是「公開密鑰系統」。

區塊 - 鏈式數據結構

區塊鏈是一種把區塊以鏈的方式組合在一起的數據結構,選取新節點時需要將新區塊里前一個區塊的哈希值、當前時間戳、一段時間內發生的有效交易及其梅克爾樹根值等內容打包成一個區塊向全網廣播。密碼學保證了數據的不可篡改和不可偽造,能夠使參與者對全網交易記錄的事件順序和當前狀態建立共識。

由於每一個區塊的塊頭都包含了前一個區塊的交易信息壓縮值,這就使從創世塊(第一個區塊)到當前區塊連接在一起形成了一條長鏈。如果不知道前一個區塊的「交易縮影」值,就沒有辦法生成當前區塊。因此,每個區塊必定按時間順序跟隨在前一個區塊之後。這種所有區塊包含前一個區塊的引用結構,讓現存的區塊集合形成了一條數據長鏈。

分散式賬本

在區塊鏈網路中,每個新增加的區塊裡面存儲了全網最近的交易記錄,然後按時間順序依次被添加到區塊鏈上。區塊鏈存儲在由多個節點組成的分散式網路系統上,每個完整的節點都存儲有整個區塊鏈的副本,而每一個計算機節點之間通過網路進行交易信息的共享。

同時,區塊鏈也是一個交易資料庫,其中存儲的是在系統中由所有節點共享的信息,稱為分散式加密總賬本。通過這個總賬本,區塊鏈實現了其不需要一個中央權力機構或受信任的第三方來協調互動、驗證交易或監管行為的特徵。 一個區塊鏈上的完整副本包含了每一個曾經執行的交易,使歷史上的任何信息都可以被任何一個參加的節點所訪問。全網共享賬本這個特性也使防止雙重支付成為現實。

共識機制

由於點對點通信的原因,分散式系統或者點對點網路中,每個節點是按自己的規則運行的。為保持整個系統數據的一致性,需要藉助分散式共識技術。傳統的分散式技術中,由於本身的技術特點並不需要數據的一致性,更多的是需要數據的準確性,包括主從、Sharding 技術等。但是,在點對點網 絡中每個節點之間並沒有依賴關係,所以就更需要保證數據一致性的機制。

分散式共識演算法包括非同步和共識。非同步是指在一個分散式系統中對消息的處理速度或者消息送達時間不做任何假設;共識是指當多個主機通過非同步通信方式組成網路集群時,這個網路默認是不可靠的,那麼在這些不可靠的主機之間複製狀態需要採取一種機制,以保證每個主機的狀態最終達成相同一致性狀態,即取得共識。通過共識機制,實現了區塊鏈網路鏈條的唯一和數據的唯一。

區塊鏈更高層級的技術:資產互聯

智能合約

在區塊鏈的環境下,合約就是通過區塊鏈使用密碼貨幣和某人形成某種協議。傳統意義上的合約,就是雙方或者多方共同協議做或者不做某事來換取某些東西,合同中的每一方必須信任彼此會履行義務。智能合約的特點是,同樣是彼此之間同意做或者不同意做某事,但無需再信任彼此,這是因為智能合約不但是由代碼進行定義的,也是由代碼(強制)執行的,自動完成且無法干預。

智能合約之所以能如此操作,主要是由三個要素造成的:自治、自足和去中心化。自治表示合約一旦被啟動就自動執行,而不需要它的發起者進行任何干預;智能合約能夠自足地獲取資源,也就是說通過提供服務或者發行資產來獲取資金,當需要的時候也會使用這些資金;智能合約是去中心化的,也就是說它們並不依賴單個中心化的伺服器而分散式存在,並且通過網路節點來自動運行。

虛擬機

虛擬機是區塊鏈中智能合約的運行環境,它被沙箱封裝起來,完全隔離。也就是說,運行在虛擬機內部的代碼不能接觸到網路、文件系統或者其他進程,甚至智能合約之間也只能進行有限的調用。

大數據和區塊鏈技術之同

分散式資料庫:HDFS vs. 區塊

大數據需要應對海量化和快增長的存儲,這要求底層硬體架構和文件系統在性價比上要大大高於傳統技術,能夠彈性擴張存儲容量。谷歌的 GFS 和 Hadoop 的 HDFS 奠定了大數據存儲技術的基礎。另外,大數據對存儲技術提出的另一個挑戰是多種數據格式的適應能力。因此,現在大數據底層的存儲層不只是 HDFS,還有 HBase 和 Kudu 等存儲架構。

區塊鏈本質上是一種分散式的資料庫系統。區塊鏈技術作為一種鏈式存取數據技術,通過網路中多個參與計算的節點來共同參與數據的計算和記錄,並且互相驗證其信息的有效性。從這一點來說,區塊鏈技術也是一種特定的資料庫技術。由於去中心化資料庫在安全、便捷方面的特性,很多業內人士 看好其發展,認為是對現有互聯網技術的升級與補充。

分散式計算:MapReduce vs. 共識機制

大數據的分析挖掘是數據密集型計算,需要巨大的分散式計算能力。節點管理、任務調度、容錯和高可靠性是關鍵技術。谷歌和 Hadoop 的 MapReduce 是這種分散式計算技術的代表,通過添加伺服器節點可線性擴展系統的總處理能力,在成本和可擴展性上都有巨大的優勢。現在,除了批計算,大數據還包括流計算、圖計算、實時計算、交互查詢等計算框架。

區塊鏈的共識機制,就是所有分散式節點之間怎麼達成共識,通過演算法來生成和更新數據。認定一個記錄的有效性,既是認定的手段,也是防止篡改的手段。區塊鏈主要包括四種不同的共識機制,適用於不同的應用場景,在效率和安全性之間取得平衡。以比特幣為例,採用的是工作量證明,只有在控制了全網超過 51% 的記賬節點的情況下,才有可能偽造出一條不存在的記錄。

分散式和集中式技術的螺旋發展

和人類社會一樣,IT 技術的發展也呈現出「合久必分,分久必合」,即集中與分布的螺旋式上升。

計算機誕生初期,僅能實現一對一的使用,是集中化的。為了使一台大型機能夠同時為多個客戶提供服務,IBM 公司引入了虛擬化的設計思想,使多個客戶在同時使用同一台大型機時,就好像將其分割成了多個小型化的虛擬主機,是時分復用的集中式計算。

進入小型機和 PC 時代,回歸了一對一的使用,不過設備已經分散到了千家萬戶。進入互聯網時代,C/S 模型的客戶端和伺服器是分散式計算,只不過伺服器之間還是分散的。

進入雲計算時代,計算能力又被統一管控起來,在客戶端和伺服器的分散式計算基礎之上,伺服器之間也開始了分散式協同工作。因為協同,所以也可以認為它們在整體上是一種集中式的計算服務。

進入大數據時代,雲計算成為大數據基礎設施,也使大數據的核心思想和雲計算一脈相承。MapReduce 將任務分解進行分散式計算,然後將結果合併,從而實現了信息的整合分析。

區塊鏈是純粹意義上的分散式系統,而分布正是技術的信仰。技術的背後,還有商業和歷史。

商業信仰集中,希望通過產品實現更好地控制和更高的利潤。但隨著產品集中度的不斷上升,系統會越來越複雜,實現的難度越來越大,溝通、交流和管理的成本也越來越高,最終變得不經濟。

而歷史告訴我們,人類社會存在社會化分工,讓專業的人做專業的事。塗爾乾的《社會分工論》談到,「分工使社會像有機體一樣,每個成員都為社會整體服務,同時又不能脫離整體。分工就像社會的紐帶,故謂之『有機團結』。」

基於這種思想,分散式技術誕生,產品功能被分解並分布到不同的節點上去完成,節點之間通過網路實現溝通。分散式系統中的一些節點或因為商業上的成功,重新成為「集中化」的節點。但隨著時代的改變,它們終將會進入新一輪的分散式周期,如此往複。

集中和分布不是光譜的兩端,任何偉大的產品都是商業和技術的「有機團結」。

大數據和區塊鏈技術之異

兩個技術處於不同的生命周期

技術成熟度曲線是諮詢公司高德納用來分析和預測各種新科技成熟演變速度及所需時間的著名工具。大數據與區塊鏈歷年在技術成熟度曲線中的出現情況如圖 4-4 所示。

圖 4-4 大數據與區塊鏈在高德納歷年技術成熟度曲線中的出現情況

大數據於 2011 年第一次上榜,位於技術萌芽期的爬坡階段,當時還統稱為「『大數據』和極端信息處理和管理」(「Big Data」and Extreme Information Processing and Management);2012 年更進一步,並在 2013 年幾乎達到了過熱期頂峰;經歷了 2014 年的下滑,從 2015 年開始,大數據突然從曲線中消失,可解讀為高德納對大數據的定位已從「新興」轉為「主流」。當前,大數據對於企業的意義已從能力要素上升為戰略核心。

相對而言,區塊鏈直到 2016 年才第一次出現在技術成熟度曲線中,並直接進入過熱期。從總體來看,大數據和區塊鏈所處生命周期的階段大不相同,兩者約有 5 年左右的差距。

大數據和區塊鏈的主要差異

大數據通常用來描述數據集足夠大、足夠複雜,以致很難用傳統的方式來處理。而區塊鏈能承載的信息數據是有限的,離大數據標準還差得很遠。區塊鏈與大數據有以下幾個顯著差異。

  • 結構化 vs 非結構化

區塊鏈是結構定義嚴謹的塊,通過指針組成鏈,是典型的結構化數據,而大數據需要處理的更多是非結構化數據。

  • 獨立 vs 整合

區塊鏈系統為保證安全性,所承載的信息是相對獨立的,而大數據著重的是信息的整合分析。

  • 直接 vs 間接

區塊鏈系統本身就是一個資料庫,而大數據是對數據的深度分析和挖掘,是一種間接的數據。

  • 數學 vs 數據

區塊鏈試圖用數學說話,主張「代碼即法律」,而大數據試圖用數據說話。

  • 匿名 vs 個性

區塊鏈是匿名的,而大數據強調的是個性化。

差異能否調和

對一個分散式系統來說,存在 CAP 定理(CAP theorem),又被稱作布魯爾定理(Brewers theorem),它指出一個分散式系統不可能同時滿足以下三點。

  • 一致性(Consistence)

分散式系統中的所有數據備份在同一時刻是否有同樣的值。

  • 可用性(Availability)

集群中的一部分節點發生故障後,集群整體是否還能響應客戶端的讀寫請求。

  • 分區容忍性(Partition tolerance)

當集群中的某些節點無法聯繫時,集群整體是否還能繼續進行服務。

由於當前的網路硬體肯定會出現延遲丟包等問題,所以分區容忍性是必須要實現的。換句話說,CAP 定理表明必須在一致性(C)和可用性(A)之間進行權衡。

具體到區塊鏈和大數據來說,大數據是以犧牲一致性(C)來換取可用性 (A)和分區容忍性(P),而區塊鏈卻優先保證了一致性(C)。

可相互借鑒之處

通過 CAP 定理,我們知道區塊鏈和大數據的諸多特性無法兩全,需要針對具體場景,在多樣化的取捨方案下設計出多樣化的系統。

區塊鏈 + 大數據:在區塊鏈中使用大數據技術

區塊鏈是一種不可篡改的、全歷史記錄的分散式資料庫存儲技術,巨大的區塊鏈數據集合包含了每一筆交易的全部歷史。隨著區塊鏈技術的迅速發展,數據規模會越來越大,不同業務場景的區塊鏈數據融合會進一步擴大數據規模和豐富性。

區塊鏈以其可信任性、安全性和不可篡改性讓更多數據被解放出來,推進了數據的海量增長。區塊鏈的可追溯性使數據的質量獲得前所未有的強信任背書。通過區塊鏈脫敏的數據交易流通,則有利於突破信息孤島,並逐步形成全球化的數據交易。

區塊鏈提供的是賬本的完整性,數據統計分析的能力較弱。大數據則具備海量數據存儲技術和靈活高效的分析技術,極大地提升了區塊鏈數據的價值和使用空間。

大數據 + 區塊鏈:在大數據中使用區塊鏈技術

大數據的技術生態百花齊放,沒有哪個軟體能解決所有的問題,能解決問題也是在一定範圍內,即使是 Spark、Flink 等。在強調透明性、安全性的場景下,區塊鏈有其用武之地。在大數據的系統上使用區塊鏈技術,可以使數據不能被隨意添加、修改和刪除。當然,其時間和數據量級是有限度的。

圖 4-5 區塊鏈在數據處理軟體 / 平台中的位置

圖 4-5 以時間、數據量為坐標軸,列出了目前大數據引擎大致擅長處理數據的範圍,區塊鏈可在其中成為一種很好的補充。

例如,存檔的歷史數據因為是不能被修改的,所以可以對大數據作哈希處理並加上時間戳,存在區塊鏈上。未來當我們需要驗證原始數據的真實性時,可以對相應的數據做同樣的哈希處理:如果得出的答案相同,則說明數據是沒有被篡改過的。也可以只對匯總數據和結果做處理,這樣只需要處理增量數據,那麼應對的數據量級和吞吐量級可能是今天的區塊鏈或改善過的區塊鏈系統可以處理的。

隨著數字經濟時代的大數據能夠處理越來越多的現實預測任務,區塊鏈技術能夠幫助把這些預測落實為行動。通過把區塊鏈技術與大數據相連接,大數據將會在「反應—預測」模式的基礎上更進一步,能夠通過智能合約和未來的 DAO、DAC 及 DAS 自動運行大量的任務,那麼將會解放大量的人類生產力,讓這些生產力被去中心化的全球分散式計算系統代替。

作者介紹

井底望天:原名周沙,矽谷風投精準資本創始人;1996 年投身矽谷高科技行業,先後在惠普、Alteron、NetScaler、NetScreen 和 Juniper 工作;2012 年開始創辦財經周報,並創立一系列高科技企業。

武源文:井通網路科技有限公司執行董事、總經理;中關村大數據產業聯盟副秘書長,中關村大數據產業聯盟交換標準委員會主任;曾任長江大數據交易所總裁、哈爾濱大數據交易中心總經理、貴陽大數據交易所董事,亞信數據(雲平台部副總經理)。

趙國棟:中關村大數據產業聯盟秘書長、北京大數據研究院副院長,匯冠股份獨立董事,北京郵電大學經濟管理學院特聘導師,國務院學位辦大數據專業碩士特聘導師,中國計算機學會大數據專家委員會委員,出版有《大數據時代的歷史機遇》《產業互聯網》等著作;系統性提出「聯盟三論」等原創思想:論企業戰略,提出以數據資產為核心的企業戰略發展理論;論區域經濟,提出以產業互聯網為統攝的產業升級、產業聚集理論;論組織變革,提出以中間市場為特徵的組織變革理論,指導區域經濟和企業發展;被譽為中國大數據、產業互聯網的引導者和啟蒙者。

劉文獻:貴陽眾籌金融交易所董事長,貴州財經大學大數據金融學院院長,中國電子商務協會互聯網金融專委會理事長。

福利!福利!我們將給 AI 前線的粉絲送出《區塊鏈與大數據:打造智經濟》紙質書籍 15 本!在本文下方留言給出你想要這本書的理由,到 12 月 2 日(周六)上午 10 點,點贊數前 15 名,每人獲得一本。截止後我們將儘快公布獲獎情況,請持續關注每日推送!另附京東購買地址,請戳「閱讀原文」


-全文完-

人工智慧已不再停留在大家的想像之中,各路大牛也都紛紛抓住這波風口,投入AI創業大潮。那麼,2017年,到底都有哪些AI落地案例呢?機器學習、深度學習、NLP、圖像識別等技術又該如何用來解決業務問題?

2018年1月11-14日,AICon全球人工智慧技術大會上,一些大牛將首次分享AI在金融、電商、教育、外賣、搜索推薦、人臉識別、自動駕駛、語音交互等領域的最新落地案例,應該能學到不少東西。目前大會8折報名倒計時,更多精彩可點擊閱讀原文詳細了解。

t.cn/Rl2MftP


推薦閱讀:

萬億級的大數據市場緣何沒有誕生世界級巨頭?
那些銀行不會告訴你的事n —現金分期利率淺析
【博客存檔】拍拍貸風控預測比賽分享
後Hadoop時代的大數據架構

TAG:大数据 | 区块链Blockchain |