DeepMind 團隊中有哪些厲害的人物和技術積累？

01-21

因為 AlphaGo 最近開始關注 DeepMind 公司，看到另一題下對 DeepMind 團隊的表述為：
Google 將收購的人工智慧公司 DeepMind 在業界有怎樣的實力和地位？ - 谷歌 (Google)

DeepMind 早期投資者之一在接受媒體採訪時表示，「如果說有哪個團隊能實現遠程實施人工智慧的話，那一定是 DeepMind 團隊，你可以把它想像成人工智慧領域的曼哈頓計劃。」

----
本題已收錄至知乎圓桌 ? 對弈人工智慧，更多關於李世石對戰人工智慧的解讀歡迎關注討論。

我也來湊個熱鬧說道說道這個AlphaGo

聽說AlphaGo應該是在3月初的時候看到的新聞.

作為一個普通人, 大致給我的印象就是它是個人工智慧的產物, 並且是在當年IBM的DeepBlue之後最引人關注的. 因為相比較國際象棋,圍棋的複雜度絕對驚人. 我不會下圍棋,更不知道怎麼算分. 不像國際象棋那樣,你看著棋盤告訴你那個是King 哪個是Queen, 你就會知道這盤棋誰贏了.這也從側面說明了圍棋要複雜的多.

作為一個普通人, 我想說說在AlphaGo之後的科學家們. 先從其中的一個人說起吧. 就是坐在李世石對面下棋的人. 大家看到的叫Aja Huang, 一看名字就知道他是個華裔. 沒錯他是台灣人, 中文名叫黃士傑 (Shih-Chieh Huang). 事實上他是個土生土長的台灣人, 他本科是在國立交通大學上的, 然後就去了國立台灣師範大學繼續讀研和博士. 隨後他去了加拿大的阿爾伯塔大學(University of Alberta)繼續做他的圍棋研究.也就是在他的博士和博士後階段, 他才深入的利用Monte Carlo Tree Search做的研究吧. 一年之後他加入了在英國的DeepMind. 也就是我們現在知道的AlphaGo誕生的地方.

作為一個普通人, 我很想知道Aja Huang到底是個怎麼樣的人.

第一, 他很熱愛圍棋. 我所能看到的是他本科的時候就拿到了圍棋業餘6段的水平. 所以我相信在此之前, 他應該很早就開始下棋,並且有著執著的追求. 即便最近, 有些棋友都能夠在一些網站上看到他還在下棋. 除此之外, 下棋可能已經遠遠不能滿足他了. 所以他開始寫一些圍棋程序Erica,Fuego, AjaGo以及中國象棋程序Elephant和六子棋程序NTNU C6.

第二, 他很熱愛計算機. 或者說他很喜歡寫代碼,寫演算法. 他除了寫下棋的程序之外, 還參加ACM比賽甚至是想TopCoder這樣的比賽都有他的身影. 在他個人的LinkedIn上最新的成就居然是在TopCoder Marathon Match 79的第三名. 而且不像很多做碼農的人, 這是他在進入DeepMind之後才獲得的名次. 可見他平時應該對編程有著極致追求吧.

第三, 他很沉得住氣. 我們能看到的是, 他從本科開始的工作和研究就是基於圍棋的. 他甚至花了7年的時間才完成了他的博士學位. 而在這段時間內他很少發表文章. 直到博士的最後兩年,他才發表了3篇在MCTS的論文. 對於很多博士生而言, 時間太過漫長,而且越到後來越是壓力巨大.但是在他看來,圍棋估計是他的一生摯愛,所以和自己熱愛的東西相處再長的時間也不足為奇.

第四, 他很有趣. 在新浪上看到的一篇文章中, 寫到他還是喜歡音樂,而且也有著音樂天賦. 能夠用MIDI自己作曲並彈奏. 可見不是所有和計算機打交道的人都是死板的. 但是我覺得有一點, 相較於和人打交道, 這些人更喜歡和機器打交道.

作為一個普通人, 我們都好奇我們是不是真的會被機器超越. 差不多兩三年前, 我就感覺到, 在機器高度發達的社會裡, 很多人都會被機器取代. 如果你仔細想想你的工作如果可以被人替代, 那麼為什麼就不能被機器替代了. 就拿圍棋而言,即便像專業級的棋手, 他們的落子也是基於經驗的, 那麼又有什麼理由去懷疑一個機器通過學習積累經驗呢. 而且一個人需要通過若干年的積累才得到的智慧, 機器往往需要更少的時間. 我覺得人類社會在不停地發展, 但是機器的發展速度遠遠超過人類.

作為一個普通人, 那什麼是我們應該害怕呢? 如果有一天AlphaGo輸了,而且Aja Huang在復盤AlphaGo的每一步的時候, 發現它並沒有選擇最優的選擇的時候. 你們就會懷疑機器還是」欺騙」人類了. 現在的數學和計算機技術所能告訴我們的都是在做optimization, 然而如果那天機器用」欺騙」的方法讓人類贏了, 那個時候才是我們真正應該害怕的. 所以」欺騙」是人類的智慧, 就像聖經的開篇一樣, 那條蛇告訴夏娃吃蘋果就是通過欺騙達成, 然後才有了現在社會的複雜.

作為一個普通人, 我有想多說幾個廢話,

Google在2014年花了4億收購了DeepMind, 其實是Elon Musk牽頭的. 而且當時除了Google, Facebook也想收購,只是最後DeepMind還是選擇了Google. 至於Facebook, 其他他們也沒有放棄AI的工作, DarkForest一直都在發展, 而且其在AI的成果也是很多的. 例如在圍棋上, DarkForest也能擊敗其他的AI系統,唯獨沒有勝過AlphaGo. 看看另一個大牛田淵棟的文章吧 http://arxiv.org/abs/1511.06410

然後讓我們看看1997的DeepBlue, 開發這個的也是個台灣人許峰雄(Feng-hsiung Hsu), 看來AI的未來應該是在亞洲. 下面是3月9日我在Google trend上看到的過去24小時AlphaGo的搜索熱點.

最後, 作為一個普通人, 找個一生摯愛的興趣愛好吧.

Reference links:

Aja Huang | LinkedIn

ajahuang (Aja Huang) · GitHub

我為什麼支持AlphaGo_台灣張曉茵

15th Computer Olympiad, Go

Fuego (ICGA Tournaments)

Shih-Chieh Huang (ICGA Tournaments)

https://www.topcoder.com/members/AjaHuang/

chessprogramming

不想編輯

剩下的幾位例如CEO(神童)之類的有空再說吧.

轉自: 如何評價AlphaGo團隊? - 知乎用戶的回答

-----

除此之外有個要補充一下:

Aja在第二場比賽後在弈棋論壇上做了簡單回復: http://www.yigo.org/modules/newbb/viewtopic.php?post_id=87902#forumpost87902

傑米斯.哈薩比斯（Demis Hassabis）：17歲進入劍橋，22歲成立遊戲公司，AlphaGo之父被稱為「地球上最聰明的男人」。

如你所想

哈薩比斯又是一個「別人家的孩子」
1976年出生
父親希臘人，母親是新加坡華人
他從小被稱作神童
1980年，哈薩比斯4歲，開始下國際象棋。
1984年，哈薩比斯8歲，靠自己得來的比賽獎金買了一台電腦。
1989年，哈薩比斯13歲，獲得國際象棋大師頭銜。
1991年，哈薩比斯15歲，連跳兩級之後，提前從高中畢業。

1993年，哈薩比斯17歲，依靠自學編程開發的遊戲，獲得一個遊戲設計比賽的亞軍，進入頂尖遊戲公司「牛蛙「（Bullfrog）實習。並參與開發了在全世界賣出幾百萬個的虛擬遊戲《主題公園》。同年，傑米斯考入劍橋，學習計算機專業。
1997年，哈薩比斯21歲，從劍橋畢業。
1998年，哈薩比斯22歲，成立了自己的遊戲公司（Elixir Studios），這個遊戲公司發布了包括《革命》和《魔鬼天才》這樣風靡一時的遊戲，每款都能賣出幾百萬套。
1999年，哈薩比斯23歲，第一次參加了「智力奧林匹克運動會」，接下來哈薩比斯連續參加了4年，贏了5次。
2005年，哈薩比斯29歲，他關閉了公司，因為他認為：「在巨型遊戲公司掌控的市場上，獨立遊戲開發商沒有持續革新的餘地。」然後他走進倫敦大學學院開始攻讀神經科學博士學位，並專心研究負責記憶、學習、空間導向的海馬體。
2007年，他的一項關於「海馬體受損也會影響規劃未來」的研究被《科學》雜誌評為「年度突破」。

2009年，哈薩比斯連33歲，取得了腦科學博士學位，並依靠自己在遊戲設計上的成就，被選為英國皇家藝術協會的成員。
2011年，哈薩比斯35歲，被遊戲、計算機和腦科學三重武裝起來的他，為製造模仿大腦的計算機系統——人工智慧成立DeepMind Technologies。

我為什麼支持 AlphaGo：近距離觀察「AlphaGo背後推手」黃士傑：我為什麼支持 AlphaGo：近距離觀察「AlphaGo背後推手」黃士傑。

這次 Nature 雜誌上關於 AlphaGo 的論文，有心的人應該會發現，第一作者是 David Silver ＆ Aja Huang.（參見 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html）
看到 Aja 學長也是 AlphaGo 的研發團隊之一，而且是並列第一作者，代表在團隊中的貢獻度不小，感到與有榮焉。我知道 Aja 學長博士畢業後到英國，2014 年曾托我買了整套 2013 年《圍棋天地》雜誌合刊本，專門寄到英國給他。Aja 學長為人低調，去年他加入 DeepMind 我也是最近才知道，而且在最近的報導中，他仍保持低調作風，一切貢獻以團隊為主，我在 Facebook 上想跟他多瞭解一些 AlphaGo 的訊息，他說是整個團隊的貢獻，而且很多事情目前都需要保密，等到三月跟李世石九段比賽後之後才能說。
關於最近有網友發現在弈城上有一個 deepmind 的帳號，揣測是否就是用來測試 AlphaGo 程式的帳號。1 月 29 日，在台灣的書呆弈討論區中，Aja 學長已正式回應，那個帳號是他個人在使用的。原文如下：
「奕城的 deepmind 是我本人(Aja Huang)在用的帳號，並不是 AlphaGo，而且 deepmind 應該是在 14 年底之前、在 AlphaGo 團隊出現之前就創建了。如果我記得沒錯，我是在 Google 收購 DeepMind 之前就在奕城用 deepmind 下棋了，那時候我打到奕城 8d。我本人喜歡下圍棋，棋力是台灣業餘六段，去年在德國的比賽我甚至贏過一位日本職業棋手。但 AlphaGo 肯定是比我強太多了。」
「職業水平的圍棋軟體，應該最慢在 1-2 年之內就會在市面上普及。我相信 Zen 的作者目前正在全力實作我們公佈在 Nature 雜誌上的方法，或許 Zen 可以在不久的將來追上 AlphaGo，我個人十分樂見這樣的發展。我估評 7d 的 Ze n目前距離 5 個月前的 AlphaGo 還有 3 子以上的差距。」

（來源：http://www.yigo.org/modules/newbb/viewtopic.php?topic_id=9845viewmode=flatorder=ASCtype=mode=0start=20）
依照 Aja 學長這樣的回覆，AlphaGo 的真正實力應該有職業水平，不容小覷。加上 Google 肯定是有一定的把握，從去年開始經過縝密的籌備及醖釀，直到今年初公開消息，是有完整準備的。當亞洲圍棋強國在為夢百合世界大賽冠軍爭奪時，英國的 DeepMind 團隊已悄然走在超越人類世界冠軍的道路上。
三月對戰李世石，AlphaGo 研發團隊堅持不透漏各種保密協議的內容，這使我更看好 AlphaGo。我不是不支持人類，而是除了棋手個人的棋力強之外，我更相信人類集體智慧的結晶成果，即 Google DeepMind 團隊合作的智慧。
這裡我想說一個題外話，可能不是很重要，但是或許也可以從側面多瞭解一點線索。一般人會覺得電腦工程師一定是整天面對著電腦和大量的數據，思考必須非常理性。能夠開發出打敗人類的圍棋程式，研發者的思維一定非常嚴謹，做事一板一眼。但是接觸了 Aja 學長，發現並不是這麼回事。他們也是人，而且，Aja 學長還很喜歡音樂，甚至自己能夠用 MIDI 作曲並彈奏。我自己從小一直是學音樂的，聽到 Aja 學長的作品都覺得有專業水平，而且非常感性，我今天翻出來聽都還是耐人尋味。我在想，這樣一位理性感性兼備的電腦工程師所在的團隊，其開發出來的電腦程式，或許會想過把一些人性的元素放進去。
很高興，Google 團隊裡有這麼一位台灣人，Aja 學長說要低調，因為 AlphaGo的團隊成員很多，不是他一個人做出來的。但是，為什麼我們不能說，AlphaGo 的團隊成員很多，但是其中有一位台灣人，而且擁有業餘６段的棋力也是團隊中棋力最高的，可謂「台灣之光」！身為師大校友、台灣人，甚至亞洲人，Aja Huang 能在英國的團隊中貢獻所學，都應該為之喝采。此時，是否我們可以用一種更寬大的胸懷，這群研發團隊代表人類突破了圍棋人工智慧，大家應該共同身為如此神奇的人類而讚嘆。就算 AlphaGo 至今尚未打敗人類世界冠軍，但我相信這一天並不會太久，我樂見其成。

技術積累和大牛都很多，我來講一個最新的，通過機器學習解讀唇讀。

還記得經典科幻電影《2001 太空漫遊》中的飛船主控計算機 Hall 嗎？它具有依靠閱讀說話人的嘴唇運動理解其所表達的內容的能力，這種能力也在推動那個幻想故事的情節發展中起到了至關重要的作用。近日，牛津大學、Google DeepMind 和加拿大高等研究院（CIFAR）聯合發布了一篇同樣具有重要價值的論文，介紹了利用機器學習實現的句子層面的自動唇讀技術 LipNet。該技術將自動唇讀技術的前沿水平推進到了前所未有的高度。

摘要

唇讀（lipreading）是指根據說話人的嘴唇運動解碼出文本的任務。傳統的方法是將該問題分成兩步解決：設計或學習視覺特徵、以及預測。最近的深度唇讀方法是可以端到端訓練的（Wand et al., 2016; Chung Zisserman, 2016a）。但是，所有已經存在的方法都只能執行單個詞的分類，而不是句子層面的序列預測。研究已經表明，人類在更長的話語上的唇讀表現會更好（Easton Basala, 1982），這說明了在不明確的通信信道中獲取時間背景的特徵的重要性。受到這一觀察的激勵，我們提出了 LipNet——一種可以將可變長度的視頻序列映射成文本的模型，其使用了時空卷積、一個 LSTM 循環網路和聯結主義的時間分類損失（connectionist temporal classification loss），該模型完全是以端到端的形式訓練的。我們充分利用我們的知識，LipNet 是第一個句子層面的唇讀模型，其使用了一個單端到端的獨立於說話人的深度模型來同時地學習時空視覺特徵（spatiotemporal visual features）和一個序列模型。在 GRID 語料庫上，LipNet 實現了 93.4% 的準確度，超過了經驗豐富的人類唇讀者和之前的 79.6% 的最佳準確度。

1 引言

唇讀在人類的交流和語音理解中發揮了很關鍵的作用，這被稱為「麥格克效應（McGurk effect）」（McGurk MacDonald, 1976），說的是當一個音素在一個人的說話視頻中的配音是某個人說的另一個不同的音素時，聽話人會感知到第三個不同的音素。

唇讀對人類來說是一項眾所周知的艱難任務。除了嘴唇和有時候的舌頭和牙齒，大多數唇讀信號都是隱晦的，難以在沒有語境的情況下分辨（Fisher, 1968; Woodward Barber, 1960）。比如說，Fisher (1968) 為 23 個初始輔音音素的列表給出了 5 類視覺音素（visual phoneme，被稱為 viseme），它們常常會在人們觀察說話人的嘴唇時被混淆在一起。許多這些混淆都是非對稱的，人們所觀察到的最終輔音音素是相似的。

所以說，人類的唇讀表現是很差的。聽覺受損的人在有 30 個單音節詞的有限子集上的準確度僅有 17±12%，在 30 個複合詞上也只有 21±11%（Easton Basala, 1982）。

因此，實現唇讀的自動化是一個很重要的目標。機器讀唇器（machine lipreaders）有很大的實用潛力，比如可以應用於改進助聽器、公共空間的靜音聽寫、秘密對話、嘈雜環境中的語音識別、生物特徵識別和默片電影處理。機器唇讀是很困難的，因為需要從視頻中提取時空特徵（因為位置（position）和運動（motion）都很重要）。最近的深度學習方法試圖通過端到端的方式提取這些特徵。但是，所有的已有工作都只是執行單個詞的分類，而非句子層面的序列預測（sentence-level sequence prediction）。

在這篇論文中，我們提出了 LipNet。就我們所知，這是第一個句子層面的唇讀模型。就像現代的基於深度學習的自動語音識別（ASR）一樣，LipNet 是以端到端的方式訓練的，從而可以做出獨立於說話人的句子層面的預測。我們的模型在字元層面上運行，使用了時空卷積神經網路（STCNN）、LSTM 和聯結主義時間分類損失（CTC）。

我們在僅有的一個公開的句子層面的數據集 GRID 語料庫（Cooke et al., 2006）上的實驗結果表明 LipNet 能達到 93.4% 的句子層面的詞準確度。與此對應的，之前在這個任務上的獨立於說話人的詞分類版本的最佳結果是 79.6%（Wand et al., 2016）。

我們還將 LipNet 的表現和聽覺受損的會讀唇的人的表現進行了比較。平均來看，他們可以達到 52.3% 的準確度，LipNet 在相同句子上的表現是這個成績的 1.78 倍。

最後，通過應用顯著性可視化技術（saliency visualisation techniques (Zeiler Fergus, 2014; Simonyan et al., 2013)），我們解讀了 LipNet 的學習行為，發現該模型會關注視頻中在語音上重要的區域。此外，通過在音素層面上計算視覺音素（viseme）內和視覺音素間的混淆矩陣（confusion matrix），我們發現 LipNet 少量錯誤中的幾乎所有都發生在視覺音素中，因為語境有時候不足以用於消除歧義。

2 相關工作

本節介紹了其它在自動唇讀研究上的工作，包含了自動唇讀、使用深度學習進行分類、語音識別中的序列預測、唇讀數據集四個方面。但由於篇幅限制，機器之心未對此節進行編譯，詳情請查看原論文。

3 LipNet

LipNet 是一種用於唇讀的神經網路架構，其可以將不同長度的視頻幀序列映射成文本序列，而且可以通過端到端的形式訓練。在本節中，我們將描述 LipNet 的構建模塊和架構。

3.1 時空卷積

卷積神經網路（CNN）包含了可在一張圖像進行空間運算的堆疊的卷積（stacked convolutions），其可用於提升以圖像為輸入的目標識別等計算機視覺任務的表現（Krizhevsky et al., 2012）。一個從 C 信道到 C" 信道的基本 2D 卷積層（沒有偏置（bias），以單位步長）的計算：

對於輸入 x 和權重：

其中我們定義當 i,j 在範圍之外時，xcij=0.

時空卷積神經網路（STCNN）可以通過在時間和空間維度上進行卷積運算來處理視頻數據：

3.2 長短期記憶

長短期記憶（LSTM）（Hochreiter Schmidhuber, 1997）是一類在早期的循環神經網路（RNN）上改進的 RNN，其加入了單元（cell）和門（gate）以在更多的時間步驟上傳播信息和學習控制這些信息流。我們使用了帶有遺忘門（forget gates）的標準 LSTM 形式：

其中 z := {z1, . . . , zT } 是 LSTM 的輸入序列，是指元素之間的乘法（element-wise multiplication）, sigm(r) = 1/(1 + exp(?r))。

我們使用了 Graves Schmidhuber (2005) 介紹的雙向 LSTM（Bi-LSTM）：一個 LSTM 映射

另一個是

然後

，該 Bi-LSTM 可確保 ht 在所有的 t" 上都依賴於 zt"。為了參數化一個在序列上的分布，在時間步驟 t，讓 p(ut|z) = softmax(mlp(ht;Wmlp))，其中 mlp 是一個權重為 Wmlp 的前向網路。然後我們可以將長度 T 的序列上的分布定義為

，其中 T 由該 LSTM 的輸入 z 確定。在 LipNet 中，z 是該 STCNN 的輸出。

3.3 聯結主義的時間分類

聯結主義的時間分類損失（onnectionist temporal classification (CTC) loss）（Graves et al., 2006）已經在現代的語音識別領域得到了廣泛的應用，因為這讓我們不再需要將訓練數據中的輸入和目標輸出對齊（Amodei et al., 2015; Graves Jaitly, 2014; Maas et al., 2015）。給定一個在 token 類（辭彙）上輸出一個離散分布序列的模型——該 token 類使用了一個特殊的「空白（blank）」token 進行增強，CTC 通過在所有定義為等價一個序列的序列上進行邊緣化而計算該序列的概率。這可以移除對對齊（alignment）的需求，還同時能解決可變長度的序列。用 V 表示該模型在其輸出（辭彙）的單個時間步驟上進行分類的 token 集，而空白增強過的辭彙

其中空格符號表示 CTC 的空白。定義函數 B : V? ? → V ?，給定 V? 上的一個字元串，刪除相鄰的重複字元並移除空白 token。對於一個標籤序列 y ∈ V ?，CTC 定義

其中 T 是該序列模型中時間步驟的數量。比如，如果 T=3，CTC 定義字元串「am」的概率為

這個和可以通過動態編程（dynamic programming）有效地計算出來，讓我們可以執行最大似然（maximum likelihood）

圖 1：LipNet 架構。一個 T 幀的序列被用作輸入，被一個 3 層的 STCNN 處理，其中每一層後面都有一個空間池化層（spatial max-pooling layer）。提取出的特徵是時間上上採樣（up-sample）的，並會被一個 Bi-LSTM 處理；LSTM 輸出的每一個時間步驟會由一個 2 層前向網路和一個 softmax 處理。這個端到端的模型是用 CTC 訓練的。

3.4 LipNet 架構

圖 1 給出了 LipNet 的架構，其始於 3×（時空卷積、信道上的 dropout、空間最大池化），後面跟隨時間維度中的上採樣。

因為人類每秒鐘大約能發出 7 個音素，而且因為 LipNet 是在字元層面上工作的，所以我們總結得到：每秒輸出 25 個 token（視頻的平均幀率）對 CTC 來說太受限了。時間上採樣（temporal up-sampling）允許在字元輸出之間有更多的空格。當許多詞有完全相同的連續字元時，這個問題會加劇，因為他們之間需要一個 CTC 空白。

隨後，該時間上採樣後面跟隨一個 Bi-LSTM。該 Bi-LSTM 對 STCNN 輸出的有效進一步會聚是至關重要的。最後在每一個時間步驟上應用一個前向網路，後面跟隨一個使用了 CTC 空白和 CTC 損失在辭彙上增強了的 softmax。所有的層都是用了修正線性單元（ReLU）激活函數。超參數等更多細節可參閱附錄 A 的表 3.

4 唇讀評估

在這一節，我們將在 GRID 上評估 LipNet。

4.1 數據增強

預處理（Preprocessing）:GRID 語料庫包含 34 個主題，每一個主題包含了 1000 個句子。說話人 21 的視頻缺失，其它還有一些有所損壞或空白，最後剩下了 32839 個可用視頻。我們使用了兩個男性說話人（1 和 2）與兩個女性說話人（20 和 22）進行評估（3986 個視頻），剩下的都用於訓練（28853 個視頻）。所有的視頻都長 3 秒，幀率為 25 fps. 這些視頻使用 DLib 面部檢測器和帶有 68 個 landmark 的 iBug 面部形狀預測器進行了處理。使用這些 landmark，我們應用了一個放射變換（affine transformation）來提取每幀中以嘴為中心的 100×50 像素大小的區域。我們將整個訓練集上對 RGB 信道進行了標準化以具備零均值和單位方差。

增強（Augmentation）：我們使用簡單的變換來增強數據集以減少過擬合，得到了多 15.6 倍的訓練數據。首先，我們在正常的和水平鏡像的圖像序列上進行訓練。然後，因為該數據集提供了每個句子視頻中的詞開始和結束時間，所以我們使用單獨的詞的視頻片段作為額外的訓練實例增強了句子層面的訓練數據。

4.2 基線

為了評估 LipNet，我們將其表現和三位懂得讀唇的聽覺受損者以及兩個由最近的最佳成果啟發的 ablation model（Chung Zisserman, 2016a; Wand et al., 2016）的表現進行了比較。

聽覺受損者：這個基線是由牛津學生殘疾人社區（Oxford Students』 Disability Community）的三位成員得到的。在被介紹了 GRID 語料庫的語法之後，他們從訓練數據集中觀察了 10 分鐘帶有注釋的視頻，然後再從評估數據集中注釋了 300 個隨機視頻。當不確定時，他們可以選擇覺得最有可能的答案。

Baseline-LSTM：使用句子層面的 LipNet 配置，我們複製了之前 GRID 語料庫當時（Wand et al., 2016）的模型架構。參看附錄 A 了解更多實現細節。

Baseline-2D：基於 LipNet 架構，我們使用僅空間的卷積替代了 STCNN，這類似於 Chung Zisserman (2016a) 的那些。值得一提的是，和我們用 LipNet 觀察到的結果相反，Chung Zisserman (2016a) 報告他們的 STCNN 在他們的兩個數據集上比他們的 2D 架構的性能差分別 14% 和 31%。

4.3 性能評估

表 2：LipNet 相比於基線的性能

表 2 總結了相比於基線的性能。根據文獻，人類唇讀者的準確率大約是 20%（Easton Basala, 1982; Hilder et al., 2009）。如預料的一樣，GRID 語料庫中固定的句子結構和每個位置有限的詞子集有助於對語境的使用，能提升表現。這三位聽覺受損者的詞錯率（WER）分別為 57.3%、50.4% 和 35.5%，平均詞錯率為 47.7%。

4.4 學到的表徵

在這一節中，我們從語音學的角度分析了 LipNet 的學習到的表徵。首先，我們創造了顯著性可視化（saliency visualisations (Simonyan et al., 2013; Zeiler Fergus, 2014)）來說明 LipNet 所學的重點區域。特別地，我們向該模型送入了一個輸入，並貪婪地解碼了一個輸出序列，得出了一個 CTC 對齊

（遵循 3.2 和 3.3 節的符號）。然後，我們計算了

的梯度，並考慮了輸入視頻幀序列，但和 Simonyan et al. (2013) 不一樣，我們使用了有引導的反向傳播（guided backpropagation (Springenberg et al., 2014)）。第二，我們訓練 LipNet 預測的是 ARPAbet 音素，而不是字元，這樣可以使用視覺音素（viseme）內和視覺音素間的混淆矩陣（confusion matrix）來分析視覺音素。

4.4.1 顯著性地圖（Saliency Maps）

我們應用顯著性可視化技術（saliency visualisation techniques）來解讀 LipNet 學習到的行為，結果表明該模型會重點關注視頻中在語音方面重要的區域。特別地，在圖 2 中，我們基於 Ashby (2013) 為說話人 25 的詞 please 和 lay 分析了兩個顯著性可視化。

圖 2：詞 (a) please 和 (b) lay 的顯著性地圖，由向輸入的反向傳播產生，展示了 LipNet 學會關注的地方。圖中的轉錄由貪婪 CTC 解碼（greedy CTC decoding）給出。CTC 空白由空格符號表示。

4.4.2 視覺音素（viseme）

根據 DeLand（1931）和 Fisher（1968），Alexander Graham Bell 首次假設給定說話人的多音素可被視覺地識別。這在後來得到了證實，這也帶來了視覺音素的概念，即一個音素的視覺對應（Woodward Barber, 1960; Fisher, 1968）。為了我們的分析，我們使用了 Neti et al. (2000) 中音素到視覺音素的映射，將視覺音素聚類成了以下類別：Lip-rounding based vowels (V)、Alveolar-semivowels (A),、Alveolar-fricatives (B)、Alveolar (C)、Palato-alveolar (D)、Bilabial (E), Dental (F)、Labio-dental (G) 和 Velar (H)。完整映射可參看附錄 A 中的表 4. GRID 包含了 ARPAbet 的 39 個音素中的 31 個。我們計算了音素之間的混淆矩陣（confusion matrix），然後按照 Neti et al. (2000) 將音素分組成了視覺音素聚類。圖 3 表示了 3 個最容易混淆的視覺音素類別，以及視覺音素類別之間的混淆。完整的音素混淆矩陣參看附錄 B 圖 4.

圖 3：視覺音素內和視覺音素間的混淆矩陣，描繪了 3 個最容易混淆的類別，以及視覺音素聚類之間的混淆。顏色進行了行規範化（row-normalised）以強調誤差。

5. 結論

我們提出了 LipNet，它是第一個將深度學習應用於模型的端到端學習的模型，可以將說話者的嘴唇的圖像幀序列映射到整個句子上。這個端到端的模型在預測句子前不再需要將視頻拆分成詞。LipNet 需要的既不是人工編入的時空視覺特徵，也不是一個單獨訓練的序列模型。

我們的實證評估表明了時空特徵提取和高效的時間聚集（temporal aggregation）的重要性，確認了 Easton 和 Basala 在 1982 年提出的假說（1982）。此外，LipNet 大大超越了人類的讀唇水平的基線，比人類水平高出 7.2 倍，WER 達到了 6.6%，比現在 GRID 數據集中最好的詞水平（Wand 等人，2016）還要低 3 倍。

雖然 LipNet 在實證上取得了成功，Amodei 等人在 2015 年發表的深度語音識別論文顯示，只有更多的數據才能讓表現提升。在未來的研究中，我們希望通過將 LipNet 應用到更大的數據集中來證明這一點，如由 Chung 和 Zisserman 等人在 2016 年收集的這種數據集的句子水平變體（sentence-level variant）。像默寫這樣的應用只能使用視頻數據。然而，為了擴展 LipNet 的潛在應用，我們能將這種方法應用到一種聯合訓練的視聽語音識別模型上，其中視覺輸入會在嘈雜的環境中提升魯棒性。

至於人才，可以看看這篇，業界 | DeepMind魅力太大：牛津劍橋的研究者紛紛跳槽

沒人提Mnih（抱歉我記不住那個名）嗎，應該算deep reinforcement learning第一人吧

還有Alex Graves（我之所以會記住他是因為我曾經被他和另外幾位像AlphaGo組虐其他圍棋AI組一樣虐過）和另外幾位我記不住名字的做LSTM的，是最早做LSTM的一批人中的

Deep Mind除了ML還有neuroscience部分，我記得有Hugo Spiers，以前在UCL做海馬

相比之下AlphaGo團隊並不算特別耀眼（當然說Huang和Silver以及AlphaGo是計算機圍棋界最強的大牛和團隊肯定是沒問題的）

要是把Deep Mind當成一個學校中的系來看，大概相當於......Berkeley？

Alex Graves. 他的工作總是很超前。據我所知他應該是第一個做基於神經網路的端到端的語音識別（http://arxiv.org/abs/1303.5778），發在2013點icassp。第一個attention模型，用於手寫體生成（http://arxiv.org/abs/1308.0850）。還有很酷炫的NTM（http://arxiv.org/abs/1410.5401）。

Aja Huang從碩士開始研究電腦圍棋的打劫策略。後來開發了Erica得過數個電腦圍棋世界冠軍。這次也不知道他是什麼心情。自己開發的圍棋軟體終於超越九段，但是依賴神經網路的演算法意味著他十多年來在電腦圍棋演算法上投注的心血都是沒有用上的。此時他大約也能體會對面李世石的心情吧。

謝邀~

並不是很了解DM團隊，只在Google收購時了解過一點，當時被其人數之少，收購價格之高驚到了，遂意識到這一定是個前途無量的團隊。果不其然，這個團隊沒有讓人失望，陸續帶來各種重磅炸彈，這次AlphaGO的出色表現絕非偶然~

如果說有什麼收穫和幫助的話，個人認為最大的幫助一定是刺激了國內各大高校和科研機構，一定會有一批高水平和低水平的團隊蜂擁而至的！

嗯。就這樣。

Text size A A A A A

| PEOPLE &> Research Staff &> David Silver |David Silver

Role:

Senior Research Fellow

Contact Details:

University College London

Dept. of Computer Science

Gower Street

London WC1E 6BT

United Kingdom

Office: TBA

Tel: +44 (0)20 7679 TBA (Direct Dial)

Internal: TBA

Fax: +44 (0)20 7387 1397

Email: D.Silver (at) http://cs.ucl.ac.uk

Group:

Intelligent Systems

Personal Pages:

http://www0.cs.ucl.ac.uk/staff/D.Silver/

從歐美到東方，圍棋界的精英在東方，一個逐步的過程，這個團隊作了不少的努力

A. Graves, V. Mnih, Hassabis, K. Gregor, Kavukcuoglu, Sutskever.…一堆PhD前輩= =