《小王愛遷移》系列之十八：聯邦遷移學習

09-05

《小王愛遷移》系列之十八：聯邦遷移學習

來自專欄機器有顆玻璃心6 人贊了文章

人工智慧在最近的一兩年來是一個炙手可熱的辭彙。AI在圖像分類、語音識別、文本分析、計算機視覺、自然語言處理、自動駕駛等方面，大量的人工智慧和機器學習模型確實在讓我們的生活變得更加方便快捷。從技術上講，目前絕大多數的AI，其實都是基於統計學的一些機器學習方法在發揮作用。而機器學習的核心，則是強調讓演算法能夠自動地基於給定的數據學習模型。到目前為止，這套方案運行完美，只要有足夠的許可權訪問數據，幾乎可以預見到，在不遠的將來，我們將全面實現AI化。

然而，歐盟在幾個月前頒布了《一般數據保護條例》（簡稱為GDPR）。該條例是近三十年來數據保護立法的最大變動，旨在加強對歐盟境內居民的個人數據和隱私保護。法案強調，機器學習模型必須具有可解釋性（我們都知道Google的AutoML很好用，但是歐盟此舉相當於宣告了AutoML的不適用），而且對於收集用戶數據，必須公開、透明。

很快，擅長收集用戶隱私的Facebook和谷歌等美國企業成為GDPR法案下第一批被告。雖然全球其他國家和地區尚未出台類似法案，但是可想而知，大家對數據隱私越來越看重。那麼問題來了：沒有許可權獲取到足夠的用戶數據，企業如何進行建模？

很自然地，我們想到可以用遷移學習進行。比如，A公司有一些自己用戶的數據，那麼就可以和B公司的數據一起協同建模。然而，由於隱私法案的保護，使得兩家公司之間，彼此不互通。這個情形可以用下面的圖來形象地解釋：理想很豐滿，現實卻很骨感。各個公司就好比一個個數據的孤島，由於隱私法案的限定，在人工智慧的汪洋大海中，煢煢孑立，形影相弔。

聯邦學習

為了應對數據隱私的挑戰，最近出現了聯邦學習的概念。聯邦學習的思想認為，目前各個企業的數據之前就像不同的國家，它們各自有自己的體系，但是無法很好地完成統一建模。聯邦學習則將它們管轄在「一個國家、一個聯邦政府」之下，將不同的企業看作是這個國家裡的「州」。這樣，通過彼此之前不互通數據，彼此之間都可以獲得模型效果的提升。FTL的核心是：各個企業的自有數據不出本地，模型效果不變。

舉個例子來說：如果下圖中左側的商店只有物品信息，沒有用戶畫像；而右側的旅行商只有用戶信息，而沒有物品信息。那麼通過二者之間的聯邦學習，微眾銀行就可以很好地進行用戶和購買行為之間的個性化建模，從而幫助兩類企業發展得更好。

圖：聯邦學習示意圖。來源：楊強教授演講膠片

聯邦遷移學習

事實上，Google等一些大公司也最先開始了一些關於聯邦學習的研究。例如，Google在2017年的一篇論文里進行了去中心化的推薦系統建模研究。其核心是，手機在本地進行模型訓練，然後僅將模型更新的部分加密上傳到雲端，並與其他用戶的進行整合。目前該方法已在Google輸入法中進行實驗。一些研究者也提出了CryptoDL深度學習框架、可擴展的加密深度方法、針對於邏輯回歸方法的隱私保護等。但是，它們或只能針對於特定模型，或無法處理不同分布數據，均存在一定的弊端。

正是為了解決上述這些挑戰，香港科技大學楊強教授和微眾銀行AI團隊，最近提出了聯邦遷移學習 (Federated Transfer Learning, FTL)。FTL將聯邦學習的概念加以推廣，強調在任何數據分布、任何實體上，均可以進行協同建模學習。

這項工作在國內，是楊教授與微眾銀行AI團隊主導，目的是建立數據聯邦，以解決大數據無法聚合的問題。在國外，目前是Google在進行相關的研究。二者的區別：微眾銀行AI團隊的做法是，用戶維度部分重疊，特徵維度不重疊；而Google則是反過來：特徵重疊，用戶不重疊。

可以預見的是，微眾AI團隊針對的情景，要比Google的情景更加具有普適性，也更符合未來大數據、多企業的應用需求。下圖展示了FTL的應用情景。

圖：聯邦遷移學習示意圖。來源：楊強教授演講膠片

解釋：假設我們現有的A和B兩個企業的數據，它們的服從上圖的特徵和樣本維度。當A和B處於同一樣本維度、不同特徵維度時，我們可以用聯邦學習；當A和B處於同一特徵維度、不同樣本維度時，我們就可以用遷移學習；二者的結合點則是：不同樣本、不同特徵維度。

具體地，可以擴展已有的機器學習方法，使之具有FTL的能力。比如，我們可以將不同企業、不同來源的數據首先訓練各自的模型，然後，將模型數據進行加密，使之不能直接傳輸以免泄露用戶隱私。然後，在這個基礎上，我們對這些模型進行聯合訓練，最後得出最優的模型，再返回給各個企業。

聯邦遷移學習使得不同企業之間，第一次有了可以跨領域挖掘用戶價值的手段。

比如中國移動，它有著海量的用戶通話信息，但是，它缺少了用戶的購買記錄和事物喜好等關鍵信息。它就無法更加有針對性地推銷自己的產品。而另一方面，一個大型的連鎖超市，比如家樂福，它存有大量的用戶購買信息，但是沒有用戶的行為軌跡。我們能不能應用聯邦遷移學習的思想，在不泄露用戶隱私的前提下，進行中國移動和家樂福的聯邦學習，從而提高二者產品的競爭力？

聯邦遷移學習 vs 遷移學習 vs 多任務學習

從字面意思上看，FTL和遷移學習和多任務學習具有很強的相關性。它們的區別是：

多任務學習和FTL都注重多個任務的協同學習，最終目標都是要把所有的模型變得更強。但是，多任務學習強調不同任務之間可以共享訓練數據，破壞了隱私規則；而FTL則可以在不共享隱私數據的情況下，進行協同的訓練。

遷移學習注重知識從一個源領域到另一個目標領域的單向遷移。而這種單向的知識遷移，往往伴有一定的信息損失：因為我們通常只會關注遷移學習在目標領域上的效果，而忽略了在源領域上的效果。FTL則從目標上就很好地考慮了這一點：多個任務之間協同。

當然，遷移學習和多任務學習都可以解決模型和數據漂移的問題，這一點在FTL中也得到了繼承。

聯邦遷移學習系統

好了，現在有了學習的基本思路，我們就可以將已有機器學習方法，如決策樹、森林、深度模型等，擴展到FTL的框架中了。學習的問題算是得到了解決。

還有一個問題：涉及到了隱私保護，誰來監管？數據放在哪裡？

答案指向了另一個炙手可熱的領域：區塊鏈。為了構建可信的聯邦遷移學習系統，各個企業應當在遵循法律法規的基礎上，按照各參與方理解一致的共識機制，構建基於區塊鏈的運營組織。區塊鏈使得信息的存儲變得去中心化，從而避免了信息泄露和偽造。

展望：聯邦遷移學習的潛力

聯邦遷移學習是一種新的學習模式。我們以FTL的思想為基礎，打造FTL的生態系統。

從社會需求來看，FTL迎合了人們對於隱私保護的要求，使得隱私數據變得更安全，這也是我們所喜聞樂見的。

因此，對數據隱私的保護非常看重的企業，可以用FTL來打造聯邦學習的聯盟。比如金融業和銀行業，就可以用FTL的框架為武器，打造多個企業之間的「聯盟」。大家在不泄露隱私的條件下，實現彼此模型的正向生長，從而更好地為客戶服務。

References

[1] 楊強：GDPR對AI的挑戰和基於聯邦遷移學習的對策

[2] 機器之心專訪楊強教授

[3] 歐盟GDPR介紹：https://zhuanlan.zhihu.com/p/31978253

[4] 聯邦學習：https://zhuanlan.zhihu.com/p/31978253

========================

[作者簡介]王晉東(不在家)，中國科學院計算技術研究所博士生，目前研究方向為機器學習、遷移學習、人工智慧等。作者聯繫方式：微博@秦漢日記，個人網站Jindong Wang is Here。

=================

更多《小王愛遷移》系列文章：

《小王愛遷移》系列之零：遷移學習領域著名學者和研究機構

《小王愛遷移》系列之一：遷移成分分析(TCA)方法簡介

《小王愛遷移》系列之二：聯合分布適配(JDA)方法簡介

《小王愛遷移》系列之三：深度神經網路的可遷移性

《小王愛遷移》系列之四：深度網路如何進行遷移學習（DaNN、DDC、DAN）

《小王愛遷移》系列之五：測地線流式核方法（GFK）

《小王愛遷移》系列之六：學習遷移（Learning To Transfer）

《小王愛遷移》系列之七：負遷移（Negative Transfer）

《小王愛遷移》系列之八：深度遷移學習文章解讀

《小王愛遷移》系列之九：開放集遷移學習(Open Set Domain Adaptation)

《小王愛遷移》系列之十：張量遷移學習(tensor unsupervised domain adaptation)

《小王愛遷移》系列之十一：選擇性對抗遷移學習(Selective Adversarial Network)

《小王愛遷移》系列之十二：新年新氣象-重新整理的遷移學習資源倉庫

《小王愛遷移》系列之十三：在線遷移學習(online transfer learning)

《小王愛遷移》系列之十四：用於部分遷移學習的深度加權對抗網路

《遷移學習簡明手冊》發布啦！

《小王愛遷移》系列之十五：自動選擇源域的遷移學習方法(SSFTL)

《小王愛遷移》系列之十六：探秘任務遷移學習 (CVPR 2018最佳論文解讀)

《小王愛遷移》系列之十七：深度遷移度量學習

《小王愛遷移》系列之十八：聯邦遷移學習