獨家揭秘|可將人工智慧大規模產業化的新理論「超深度學習」

06-19

對於這樣顯赫的題目大家首先要問是誰提出來的？這裡主要涵蓋需要通過該理論提出者的資歷判斷提出內容的真實性。遺憾的是提出者不是出身顯赫的來自IBM，Google等等，這裡只能提供筆者的研究經歷供讀者參考。

大約在90年代初期，當時由美國學界提出的導入「熵」的理論解決最佳化組合問題，這一理論一時也被世界矚目，但是這個演算法同目前深度學習相仿計算複雜度極高，即使一個最簡單的電路的計算，要花費若干天，面對被世界推崇的理論筆者大膽的提出了「模糊事象概率」理論，通過用模糊概率的測度判斷組合結果的價值，獲得了快速進行大規模集成電路的最短配線長，最小面積以及電氣特性的優化的多目的組合最佳化的解。其實當今的深度學習中的「訓練」就是數學上的最佳化組合問題。

90年代後期發明了「概率尺度自組織」的機器學習理論，並通過聲音識別，手寫文字識別，圖像識別等大量的應用，證明了機器學習理論的特殊的應用效果，在後面的會專題介紹。

進入2000年以來，國際上個人信息法的制定成為社會關注的焦點，由於當時個人信息的67%是通過紙介質文檔流失的，為此我們發明了具有隱形結構的第三代條碼網屏編碼，可在A4的一張紙上埋入一本小說的信息備受業界的關注。在這十幾年中針對Google眼鏡，我們還提出了可以把任何圖像直接通過概率尺度自組織的機器學習的手法變換成1036的代碼，即ITC（Image To Code）理論。這個理論成為了AI的超深度學習的雛形。

我們是經過上一代人工智慧的研究，對於當今火熱的AI熱潮，親身感到並沒有新的理論突破，不同的是人的思想的進步，特別是把神經網路理論作為AI的核心理論，對神經網路理論的認識提高了。在2014年以後我們將上述的機器學習與神經網路理論的結合，產生了超深度學習的理論。

下面我們重點討論深度學習所遺留下的問題是怎麼回事？深度學習是否是唯一的人工智慧的理論？

最近AlphaGo連續打敗人類，推崇深度學習會繼續升溫。首先深度學習是在實際應用中被看好的，應該肯定走機器學習這條路必然會給我們帶來意想不到的應用效果，但是也應該清醒的看到深度學習還是科學家們的研究課題，目前有很多關鍵問題不能解決，距離實際應用甚遠。我們之所以積極的推動超深入學習的普及，是因為我們看清了深度學習的不可解決的問題點，以及超深度學習的先進性實用性，可以馬上實現工業化的特點。

首先必須搞清的是：深度學習的結果是將目標函數的信息通過訓練承載到海量的屬於歐幾里德空間的參數上，雖然各方面報道應用效果獨具，但是在數學上無法證明具有突破性，由於深度學習所構造的神經網路與大腦的機理又是風馬牛不相干的，因此也不能看到在神經元的方面會起到什麼作用，其結論是；通過這樣的方式所產生的訓練效果與所投入的硬體開銷不成比例，況且AlphaGo的設計者也指出深度學習在整個系統中的作用只佔30％的作用，是次要地位。

深度學習還有一個如圖1所示的目前解釋不了的問題，為什麼層數越高訓練結果的圖像越清晰？開始我們曾認為是承載目標函數的信息的參數數量的提高使記錄的信息的信息量的提高，但是從數學上我們可以證明在同等節點的層與層的訓練中必定可以找到一組參數可使輸入信息完全等於輸出信息，這就說明深度學習的層數越多圖像越清晰與訓練的參數數量無關，這就剩下一個可以信服的原因，深度學習每一層所訓練的結果實際獲得的是一組局域最佳解，每一層的訓練是一個傳遞的函數，所以每一層訓練後的解是比上一層更接近整體最佳解的局域最佳解的參數，所以參數越接近整體最佳解圖像就越清晰。

圖1深度學習的學習效果

那麼，深度學習的黑箱問題是怎麼回事？這裡所謂的黑箱問題是涉及兩個方面的問題？一個是深度學習的機理是什麼？絕大多數從事這方面研究的科學家解釋不清？其實深度學習所訓練的機理就是在一個海量的數據空間里進行組合，並沒有其他特殊的機理，黑箱問題就在於在海量數據空間里組合，會出現無窮的局域最佳解，其局域最佳解的分布曲線通過數學方法無法計算出，人為的實驗也是目前圖靈機所做不到的，因此在訓練中很可能會出現一個參數稍微改變輸出結果會突然崩潰，或者是所訓練的結果並不是按照我們想像的結果進行展開，在組合空間中所獲的的局域最佳解出現在某一個情況下突然出現令人費解的狀態是正常的，我們在通過規則解決最佳組合的NP問題中經常會出這種現象，往往是通過程序的調整來實現，對於深度學習要通過重新改變參數，尋求另一個局域最佳解的方法來解決。所以只要是知道深度學習的訓練是數據最佳化組合的過程，就不難理解深度學習的黑箱問題。黑箱問題的另一個因素是深度學習是解決歐幾里得空間的問題的演算法，在模式識別的應用中輸入量存在嚴重的隨機性，這必然要傳遞到輸出結果造成訓練的參數無法穩定，這個問題比較好理解。

最後的問題就是在模式識別的應用上，是特徵向量的質量重要，還是通過學習進行分類重要？回答很簡單沒有好的特徵向量的質量再好的深度學習也是無濟於事的，在許多文章中都把深度學習可以直接抽取特徵量作為深度學習的一大特點，其實深度學習在特徵映射的方法上簡直是極其傳統的處理方法，而且並沒有考慮圖像信息並不只是灰度信息，所以深度學習在模式識別上的應用特點只能停留在大量的學習的作用上，不會產生更多的突出效果。

在這裡首先還是先論證為什麼要對傳統的深度學習進行徹底分析？不管深度學習有什麼突出的效果，AlphaGo所需要的硬體開銷是1000個CPU，200個GPU需要20萬W的電力消耗，這樣的硬體開銷如何普及？反過來深度學習把如此大規模的硬體開銷用來幹什麼？值得不值得？有沒有可以大規模普及，性能高於深度學習的演算法？

首先用空間分析法評價深度學習的價值：從數學上看深度學習就是如公式1所示；

公式1

是把輸入函數表示為通過一層接一層的傳遞函數，從中產生海量的參數，由於海量參數承載了目標函數的信息，每一個參數的微小變化可以在歐幾里得空間產生宏觀的巨大的距離的差距，可以如公式2所示；

公式2

用在歐幾里得空間公式的前面加一個參數W來表示，這個參數具有足夠大，這好比我們在搞模式識別時，把特徵向量統一看成是一個能量的分布，通過平方值擴大特徵向量距離之間的差距，這種處理方法起初還是有一定效果的，但是，再成倍的擴大效果不明顯，因為特徵向量間的距離的擴大會同時擴大了特徵向量之間的隨機分布的範圍，整體的距離的擴大的值與隨機範圍的擴大的值的比例並沒有擴大多少。所以為了訓練海量的參數所投入的巨大的硬體是得不償失的。

再從最佳組合理論上分析，深度學習所採用如圖2所示的損失函數的SGD評價方法，所得到的的訓練是組合理論中的一個局域的最佳組合的解，這一點深度學習的研究者並不理解，其實這麼一個高次的組合空間不可能只有一個局域的最佳解。

圖2隨即梯度下降法SGD的示意圖

其實如圖3所示，20多年前已經被一些例如Hopfild的AI科學家所認識，力圖用組合理論的最短路徑訪問的方法進行神經網路的訓練，深度學習增加隱藏層造成的海量的參數所形成的巨大的組合空間，在沒有找到最佳的組合演算法的時候，通過拼硬體只是暫時的，一定會被新的演算法所顛覆。

圖3「Hopfild的聯想記憶與最佳組合理論」示意圖

如何解決深度學習的問題點？超深度學習一舉將深度學習所存在的所有問題全部給予解決。超深度學習的數學基礎就是公式3所示的一個基於概率尺度的自組織演算法。

公式3

G? pi (i=1,2,…,m)

An = A(Gn)

Mn = M[Gn,A(Gn)]

Gn = G{A(Gn-1),M[Gn-1,A(Gn-1)]}

這裡，給定一個屬於集合G的一組隨機分布的數值pi (i=1,2,…,m)，某一集合Gn中必然存在一個特徵值An是在最大概率條件下可以表示集合Gn的一個值，同時也必然會有一個概率尺度Mn表示在以特徵值An為中心時，概率尺度Mn範圍內的所有概率分布值為該集合的最大概率值，那麼概率尺度自組織可以由下式來表達。

Gn= G{A(Gn-1),M[Gn-1,A(Gn-1)]}

上述概率尺度自組織的輸入信息是含有隨機分布的特徵量，也可以是概率值的分布信息，輸出是針對學習數據的一個最大的概率值A，以及最大概率值的範圍M。

在上述的基礎上，我們提出了公式4的概率空間的距離的定義方法，

公式4

用以衡量在概率空間里特徵向量之間的距離。與歐幾里得空間不同的是，在概率尺度M的範圍內，距離是「0」，這是使模式識別的精度飛躍式的提高的重要理論。也是證明頭腦是概率空間的模型的重要理論。

接下來我們再分析概率尺度自組織的輸出特性。首先這一機器學習的演算法可以顛覆統計學的重要的兩大參數，平均值和分散值，以及與這兩大參數密切相關的相關分析，回歸分析等。

概率尺度自組織與傳統的機器學習相比的先進性在於如圖4所示；概率尺度自組織是動態的，可以自主的逼近概率最高的區域，

圖4自主的逼近概率最高的區域示意圖

例如圖5所示進行人臉識別時可以自動的尋找到概率分布最集中的人的臉部。可以直接的對輸入的圖像數據，聲音數據等等進行概率尺度的自組織，可以獲得最大概率的特徵值。

圖5自動逼近人臉的示意圖

如圖6所示；相比深度學習的特徵映射的方法不能對應圖像漂移，不能去偽存真過濾干擾信息，不能做到最大概率的獲取特徵信息。

圖6深度學習特徵映射示意圖

概率尺度自組織還可以學習特徵信息的生起概率，並可通過學習獲得特徵信息屬於那個輸出結果的最高概率值，使超深入學習成為模式識別的最高水平的演算法。

概率尺度自組織的機器學習的特點是，簡單，計算複雜度是線性的，易於發展，可以適應非常廣闊的應用。結合神經網路理論可以產生大量的無監督學習，各種對抗學習等的新型超深度學習的模型。

下面具體介紹超深度學習的架構，超深度學習與普通的深度學習最大的不同是，普通深度學習是通過層與層之間的複雜連接關係產生海量數據，這種人為的將問題複雜化恐怕是典型學界的做法，這種做法可以引起眾多的學者們的興趣，是起到推動人工智慧在理論上的完善必不可少的過程，幾乎科學技術的發展都需要這個過程，當發展到一定程度時，必定有人出來從另一條路出發將多年積累的理論顛覆，產生可以實際應用的新理論。人工智慧也一定要走這一道路。超深度學習就是對深度學習的顛覆，同深度學習不同的是超深度學習是直接對數據進行在概率空間中的機器學習，可以定量的對輸入的隨機分布信息進行分析，對數據進行分類，沉澱深層信息，最終給出最大概率的分類。超深度學習始終基於最大概率尺度的自組織，所以永遠是無監督學習，也無需海量數據來承載目標函數的信息，是對輸入數據的直接學習，這就產生了高效率的處理效果，無需巨大的硬體支持，一個最低的硬體配置就完全可以實現相當於深度學習功能，做到的最佳分類，最佳的處理結果。

圖7超深度學習的架構示意圖

超深度學習如圖7所示；是由節點與節點直接連接的與若干個概率尺度的自組織機器學習單元來擔任機器學習的任務，學習的層數與大腦一致，是由輸入層，腦神經層，以及腦皮層組成，由同一個輸入目標函數信息的多次學習，產生一個與特徵向量所對應的學習特徵值的向量，以及概率尺度的向量，並對應每一個腦神經的節點，目標函數信息僅僅承載在這兩個向量上，這是超深度學習無需龐大的硬體環境支持的根源，當輸入信息的特徵向量與學習特徵值的向量進行比對時，每一個特徵向量的分量的對比結果小於閥值，即概率尺度時所對應的腦神經層的節點就產生一個腦神經信號輸入到腦皮層，刺激腦皮層，腦皮層被刺激的信號越多越興奮，依據腦皮層的興奮程度決定是否為目標函數信息，這豈不是與大腦的機理非常接近嗎？概率尺度就是腦神經的閥值，並不是深度學習中人為定義的參數，因此大腦機理應該建立在概率空間的模型，通過超深度學習的架構終於搞清楚了。

下面讀者會問超深度學習只有三層如何深入，往往在大型伺服器上運行需要處理更複雜的更高精度的目標函數，深度學習是靠大量的增加層數，其結果使系統的複雜度成為無限的程度，使未來的應用束手無策，超深度學習如圖８所示；是按照針對複雜系問題的空間映射原理，可以把任何的複雜系的目標函數映射到任意多的子空間，針對每一個子空間的目標函數的信息用增加輸入層的節點的方法進行，這使超深度學習可以把目標函數的處理無限的深入下去，卻不增加系統的Ｏ（ｎ２）的複雜度。在目標函數信息的輸入環節，超深度學習針對每一個目標函數的分量通過概率尺度的自組織可以獲得最大概率的特徵值，這也是深度學習所望塵莫及的，超深度學習與深度學習相比，不僅在是否建立在概率空間的模型上處於優勢，可以使深度學習需要很多的概率模型來彌補演算法上的短板，在超深度學習里被省略，因此容易理解而易於深入推廣又是超深入學習的一大特點。

圖８超深度學習的深入方法

再有不管深度學習如何通過各種概率模型來解決演算法上的弱勢，但是只能停留在傳統的概率統計的水平上，而超深度學習通過機器學習可以顛覆傳統的統計學，使處理結果達到幾乎無法再提高的程度。

超深度學習的實際應用的例子之一是如圖９所示；

圖9超深度學習實現圖像變換代碼的例子

將任意一個圖像通過手機拍照後，通過超深度學習變換成一個1036的代碼，導入了超深度學習無需通過噴印標記的方式構成光學可讀性二維碼，而是靠圖像的灰度的分布自組織成一個二維碼，也就是說可以通過手機拍攝商品標識，直接生成一個可以連接網路的二維碼，讓全世界的商品一夜之間就可連接網路。

超深度學習的圖像直接生成代碼，要比市場流行的開源程序AR圖像識別技術具有相當高的難度，AR圖像識別技術只要能區分不同圖像的輪廓就可，超深度學習要克服由於手機在不同情況下拍攝的圖像所產生的非常大的隨機分布信息，通過概率尺度的自組織變換成一個穩定的代碼，其應用結果必然產生突破，AR的識別結果是一個十兆位元組以上的文件，而且分解能力差，一般只能在十幾個圖像之間檢索，超深度學習把任意圖像變換的是一個1036代碼，只佔幾十個位元組，而且分解能力可以在1036圖像之間檢索。

超深度學習與普通的深度學習的對比如表１所示;首先從方法上進行比較：

深度學習是在歐幾里得空間里訓練出海量的參數，用海量的參數承載目標函數的信息，超深度學習是直接針對輸入的隨機分布數據進行概率空間的自組織學習，將隨機分布的數據進行去偽存真的處理，得出定量的並且穩定的最大概率的解，以及可以提煉出深層的信息。

表1超深度學習與深度學習的對比

在神經網路的結構上深度學習是數十層乃至數百層，這樣就使問題的複雜度急劇擴大，造成組合的空間無窮的大，導致不可能得到最佳組合的解，因此出現黑箱問題等，超深度學習同大腦的構造近似，只有三層輸入層，腦神經層，以及腦皮層，而且數學模型很接近大腦的機理，證明超深度學習符合大腦的結構。

深度學習的數據空間是歐幾里得空間，利用歐幾里得空間的數據也可以承載目標函數的概率值，因此深度學習在輸入或輸出的環節上加入不同的概率模型，以及概率統計的演算法。超深度學習就是建立在概率空間的自組織，可以直接對輸入的具有隨機分量的數據進行去偽存真的特徵抽出。

再有，在模型能力擴大的方法上深度學習是靠增加隱藏層的數量來實現的！超深度學習是靠增加輸入層的節點的個數，通過將複雜系空間的映射，把目標函數變換成若干子空間，並把子空間的特徵分量對應輸入層的各個節點，通過擴大節點的個數達到深入學習的目的。

在特徵量抽出上深度學習是在一個目標函數上通過稠密的目標函數的特徵映射實現的，這種特徵映射是傳統的方法，解決不了目標函數的較大漂移，以及特徵量為隨機分布的信息。超深度學習針對輸入的目標函數可以進行廣域的自組織學習，可以最大概率的將特徵量抽出，可以解決目標函數的漂移問題。

在處理結果上的對比：

在處理複雜度上，深度學習是每一層的節點數量的指數Ｏ(nn),而超深度學習一直保持在Ｏ(n2)的水平。

在硬體開銷上，深度學習需要大量的GPU構成的巨型的硬體系統，而超深度學習可以在一個晶元或移動終端上實現。

在處理效率上，深度學習在訓練海量參數時處理效率極低，而超深度學習直接對數據進行處理，所以處理效率極高。

在模型發展上，深度學習的基本模型20多年沒有改變，是硬直性的很難突破，超深度學習是柔性的很容易發展，可以根據用途的不同進行有針對性的構建，是一個孕育突破性發展的模型。

在數據空間上，深度學習所訓練的數據是歐幾里得空間的數據，超深度學習的數據是在概率空間的學習所產生的數據。這是實質的區別。

在學習方式上深度學習只能建立在有監督的學習以及半無監督的學習，超深度學習本身具有最大概率的尺度的學習目標，可以完全的進行無監督的學習，同時也可實現兩種對抗學習，是普通深度學習很難實現的。

當然深度學習在應用中在輸入與輸出環節上加入了大量的概率模型，以彌補訓練的數據只能是歐幾里得空間的數據這一短板，但是不管採用什麼演算法也只能停留在傳統的統計學的水平上，超深度學習通過學習可以產生出顛覆統計學的效果，將錯綜複雜的概率糾纏進行最佳的概率的分類，可以對深層的信息進行挖掘和沉澱，使目標函數的處理達到不可能再提高的地步，這就是超深度學習的卓越之處。

如上所述，超深度學習的基本模型，同傳統的深度學習的對比進行了介紹，這裡準備介紹一個我們正在進行的超深度學習視覺晶元的開發情況。以及這一晶元的特點同導入深度學習的比較。

圖10超深度學習視覺晶元的構成

圖10是超深度學習視覺晶元的構成，這個項目是同由日立，NEC以及三菱電機的半導體事業部剝離，聯合組建的日本最大的晶元公司RENESAS公司聯合開發的，採用硬體加軟體的形式，對於非常佔用處理時間的顏色變換，以及為儘可能獲取圖像的本來信息，針對圖像的空間映射等採用硬體處理，演算法用軟體處理。超深度學習獨特的兩種對抗學習以及無監督學習的演算法均在這一款晶元里搭載，因此，可以使這一晶元在圖像感知方面做到傳統的演算法無可比擬的天衣無縫的精度與應用效果。

我們的超深度學習的研發戰略是，首先從演算法上布局，既然已經證實，導入超深度學習可以顛覆傳統的統計學的兩大參數，那麼與這兩大參數有關的相關分析，回歸分析等等大量的統計學的數學模型，將成為超深度學習的重要架構，這些成果可以分別通過論文的形式發表。同時將深度學習理論作為一個鏡子，逐一的將深度學習的一些特殊的演算法在超深度學習上實現，在應用上從圖像感知，語音感知到預測推論等的應用可視化，在推廣上從提供SDK程序，AI晶元以及開源平台，聯合開發等等分別進行，我們是原創單位因此不同我們的用戶競爭，我們的角色是技術提供與服務，以及基礎性開發，因此不獨立的進行具體項目的開發，可以為從事AI事業的創業公司進行技術合作以及技術入股。

作為我們奉獻社會的超深度學習由於不是通過組合方式訓練海量的參數的，是直接對隨機分量的數據進行概率自組織的學習，因此不存在黑箱問題，而且最大的特點是硬體要求門檻極低，普通一個晶元，任何一個移動終端都可以立即應用，基礎理論概念清楚，演算法簡單易懂，是可以大量普及的一個為大眾服務的AI演算法，為了證明超深度學習的能力，我們也在尋求社會支持，開發與AlphaGo對抗的超深度學習的演算法，我們本來就是解決組合最佳化的NP問題的專家，有過各種類似的應用業績，我們完全有能力同AlphaGo系統對抗，超深度學習的特點是把AlphaGo所需要的1000CPU，200個GPU耗電20萬W的硬體開銷用一個晶元代替，另一個特點是；超深度學習是概率的模型，因此可以將AlphaGo主要靠輔助的概率模型的程序實現，改為真正靠超深度學習模型來實現，衷心的希望從事AI研究的年輕的科學家加入到超深度學習的研究與推廣中來！