基於區塊鏈的機器學習模型創建方案

05-03

通過基於區塊鏈市場產生的數據訓練出的機器學習模型有可能成為世界上最強大的人工智慧。它們結合了兩個強大的原始資源：私人機器學習，允許在不透露敏感私人數據的情況下進行訓練，以及基於區塊鏈所帶有的激勵機制，這些激勵機制允許這些系統可以吸引最佳數據和模型，使其更加智能化。其最後導致的結果是開放的市場，任何人都可以出售他們的數據並保持其數據的私密性，而開發人員則可以使用激勵措施為他們的演算法吸引最佳數據。譯者註：著名的華人物理學家張首晟也曾表示過區塊鏈可以很好的解決人工智慧需要大量的數據的難題。

起源

這個想法的基礎是在2015年與理查德· 努梅萊的談話中獲得的。Numerai是一家對沖基金，它將加密的市場數據發送給任何想要競爭模擬股市的數據科學家，然後根據他們打造的模型性能的良好程度進行不同級別的獎勵。

創建：

舉個例子：我們試著創建一個完全分散的系統，用於在分散交易所交易加密貨幣。這是未來的一個方向：

數據：數據提供者可以獲取數據並將其提供給建模人員。

模型構建：建模者選擇要使用的數據並創建模型。訓練是使用安全的計算方法完成的，該方法允許模型在不暴露底層數據的情況下進行訓練。

元模型：構建元模型是基於考慮每個模型的演算法創建的。

使用元模型：智能合約通過分散交換機制在鏈上以編程方式進行元模型交易。

分配收益/損失：經過一段時間後，交易產生利潤或虧損。這種利潤或損失是根據元模型的貢獻者分成多少，這取決於他們製作多少智能元素。然後，模型轉向並對其數據提供者執行類似的分發/股權削減。

可驗證的計算：每個步驟的計算是集中式的，但可以使用像Truebit這樣的驗證遊戲進行驗證和挑戰，或者使用安全的多方計算進行分散。

託管：數據和模型要麼託管在IPFS上，要麼託管在安全的多方計算網路中，因為鏈上存儲將會過於昂貴。

是什麼讓這個系統強大？

吸引全球最佳數據：吸引數據的激勵措施是系統中最有效的部分，因為數據往往成為大多數機器學習的限制因素。比特幣就是以同樣的方式，通過開放式激勵機制創建了一個全球計算能力最強的緊急系統，適當設計的數據激勵結構將為你的應用程序帶來世界上最好的數據。關閉數千或數百萬個數據來源的系統幾乎是不可能的。

演算法之間的競爭：在以前不存在的地方創建模型/演算法之間的公開競爭，使用數千種競爭新聞源演算法來分散Facebook。

獎勵的透明度：數據和模型提供商可以看到他們獲得了他們提交的公平價值，因為所有計算都是可驗證的，使他們更有可能參與。

自動化：在鏈上直接生成值並在令牌中直接生成值創建了一個自動化的，不受信任的閉環。

網路效應：數據提供者和數據科學家多面的網路效應使系統自我強化。它的表現越好，吸引的資金就越多，這意味著更多的潛在支出，這吸引了更多的數據提供者和數據科學家，他們使系統變得更加智能化，從而吸引更多的資金。

安全計算：安全的計算方法允許模型在數據上進行訓練而不會泄露數據本身。目前使用和研究的安全計算有三種主要形式：同態加密（HE），多方安全計算（MPC）和零知識證明（ZKPs）。多方安全計算是最常用的專用機器學習計算方式，作為同態加密往往過於緩慢。安全計算方法是處於計算機科學研究的前沿技術，它們通常比常規計算慢幾個數量級，但近年來一直在改進。

終極推薦系統：

為了證明私人機器學習的潛力，想像一下名為「終極推薦系統」的應用程序。它會監視你在設備上執行的所有操作：你的瀏覽記錄、你在應用中執行的所有操作、手機上的圖片、位置數據、消費記錄、可穿戴感測器、簡訊、家中的相機。然後給你推薦：你應該訪問的下一個網站、閱讀文章、聽歌或購買產品，這個推薦系統會非常有效。比谷歌，Facebook或其他任何現有的數據孤島都要多，因為它對你更了解，它可以從你的私人數據中學習。與以前的加密貨幣交易系統的例子類似，它可以通過允許一個專註於不同領域的模型市場（例如：網站推薦，音樂）競爭訪問你的加密數據並向你推薦某些東西，甚至可能為你提供數據。

目前的方法

來自Algorithmia Research的一個簡單結構將模型的精確度設置為高於某個回測閾值：

由Algorithmia Research創建機器學習模型的簡單構造

Numerai目前採取三個步驟：它使用加密數據（儘管不完全同態），它將眾包模型結合到元模型中，並根據未來表現獎勵模型，而不是通過回溯測試。

還有一些人正在開始構建安全的計算網路。Openmined正在創建一個多方計算網路，用於在Unity上訓練機器學習模型，該網路可以在任何設備上運行，包括遊戲控制台（類似於家中的Folding），然後擴展以確保MPC的安全。

最終狀態將是相互擁有的元模型，它使數據提供者和模型創建者的所有權與他們做出更聰明的決定成比例。這些模型將被標記化，隨著時間的推移可以派發股息，甚至可能受到訓練者的支配。這是一種互相擁有的蜂巢式思維。

啟示

首先，分散式的機器學習市場可以消除目前科技巨頭的數據壟斷。在過去的20年中，他們將互聯網上的主要價值創造源頭標準化和商品化：專有數據網路和圍繞它們的強大網路效應。結果——價值創造從數據轉移到演算法。

第二，他們創造了世界上最強大的AI系統，通過直接的經濟激勵為他們吸引最好的數據和模型。他們的力量通過多方面的網路效應而增加。隨著Web 2.0時代的數據網路壟斷變得商品化，它們似乎成為下一個重新聚合點的理想選擇。

第三，正如推薦系統的例子所顯示的，搜索是顛倒的——不是我們在找產品而是產品再找我們。每個人都可能有個人策略市場，推薦系統在競爭中將最相關的內容放入其供稿中，並且相關性由個人定義。

第四，它們使我們能夠從Google和Facebook等公司獲得的服務是一樣的，並且不會泄漏我們的數據。

第五，機器學習可以更快地推進，因為任何工程師都可以訪問開放的數據市場，而不僅僅是大型Web 2.0公司的一小部分工程師。

挑戰

首先，安全計算方法目前非常緩慢，機器學習的計算成本太高。另一個好消息是科學界對安全計算方法的興趣已經開始出現，性能正在不斷提高。

其次，計算為元模型提供的一組特定數據或模型的值是很難，清理和格式化眾包數據是具有挑戰性的。

最後，具有諷刺意味的是，創建這種系統的廣義構造的商業模式不如創建個體實例那麼明確，這似乎是很多新的加密原語。

結論

私人機器學習與區塊鏈激勵相結合，可以在各種應用中創造出最強大的機器智能。隨著時間的推移，可以解決很多重大的技術挑戰。他們的長期潛力是巨大的，他們是可怕的：他們引導自己存在、自我強化、訓練私人數據、並且幾乎不可能關閉。無論如何，它們將是加密貨幣如何緩慢地進入每個行業的又一例證。

本文由@阿里云云棲社區組織翻譯。

原文鏈接

文章原標題《blockchain-based-machine-learning-marketplaces》

作者：Fred Ehrsam

譯者：虎說八道審校：袁虎。

文章為簡譯，更為詳細的內容，請查看原文文章

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎