GMIS 2017嘉賓李佳:從Snapchat到谷歌,人工智慧領域的「Another Badass Woman」
李佳,谷歌雲機器學習/人工智慧研發負責人(Head of R&D, AI/ML, Senior Director at Cloud,Google)。本科畢業於中國科大自動化系。新加坡南洋理工大學碩士。在伊利諾伊大學香檳分校、普林斯頓大學與斯坦福大學跟隨李飛飛從事計算機視覺研究。2011 年獲斯坦福大學計算機科學博士。曾在谷歌實習,2011 年加入雅虎,2014 年成為雅虎資深研究員,開始領導雅虎實驗室的視覺計算和機器學習部門。2015 年 2 月,Snapchat 聘請李佳擔任公司研發主管。2016 年加入谷歌。
在結束烏鎮的活動之後,李佳將亮相機器之心 GMIS 2017,分享精彩的主題演講。
在烏鎮,中國媒體首次見到被李飛飛描述為「斯坦福大學、計算機科學和人工智慧領域裡另一位女性狠角兒(Another badass woman in Stan, CS and AI)」的李佳。她參與了一場名為「AI 的未來」活動。「看到自己的技術成果能影響到各行各業,讓我感覺非常興奮。」李佳對機器之心說。之所以加入谷歌雲,是因為看到很多優秀的人工智慧人才聚集在幾家高科技公司或者獨角獸公司中,其他傳統公司沒有這個機會,谷歌雲能夠把機器學習和人工智慧帶給更多的公司。
去年 11 月,在谷歌 CEO Sundar Pichai 宣布穀歌戰略轉型後不久,作為谷歌雲業務改組的一部分,公司宣布李飛飛和李佳加入谷歌,負責雲業務機器學習/人工智慧研發工作。公司表示,李飛飛和李佳是谷歌正式將人工智慧集團業務正式化的一部分。該團隊不會只專註於人工智慧研究,而是致力於將尖端技術融入各種 Google Cloud 產品。
當時,人們對李佳的印象來自谷歌雲業務負責人 Diane Greene 一句分量不輕的評價上——「世界領先的研究科學家,從業人員和領導者」,但相比李飛飛,她並不太善於在公開場合侃侃而談。不過,對於人工智慧技術應用的使命感,她們想法相似——雲平台的數據資源和計算資源都是最大的,希望能把人工智慧帶到千家萬戶。
一
和李飛飛加入谷歌不同,李佳的選擇並不讓人感到意外。2011 年獲得斯坦福大學計算機科學博士學位後,李佳一直在公司從事研究工作。人工智慧領域產生的科技與人類生活的方方面面都有關。因此,人工智慧業界人士應該讓這個技術關係到每個人的生活,這十分重要。
2011 年,李佳加入雅虎擔任研究員。雅虎擁有當時全球最有趣、最大資料庫之一——相片社群網站 Flickr,網站圖片數量足夠拿來訓練人工智慧。作為 ImageNet 主要參與者之一,李佳深知數據對於深度學習技術的重要性。
2012 年,AlexNet 在 ImageNet 中獲勝,驚艷世人。雅虎也在嘗試不是靠圖片描述或是用戶輸入的關鍵詞來搜索圖片,而是教會計算機如何識別照片的某種特徵。李佳的工作開始有了顯著進展。2013 年,李佳研發了一個演算法,可以讓用戶從大規模 Flickr 圖片集中發現具有視覺審美性的天氣圖片。2014 年,李佳擔任雅虎實驗室的計算機視覺和機器學習部門負責人。這一年,因為對台灣電子商業產品推薦和產品圖像搜索所做出的貢獻,李佳榮獲 2014 年 Superstar Individual Award,這也是公司設立的最高獎項。每年,公司會從 1 萬多名員工選出 11 名獲獎者。
這一年,正好是深度學習豐收的一年。VGG、GoogLeNet 接連出現,深度學習模型在圖像內容分類方面和視頻分類方面有了極大的應用。深度學習不再是海市蜃樓,越來越接地氣。許多曾對深度學習和神經網路都保持懷疑態度的人開始湧入深度學習。2015 年,在 1000 類的圖像識別中,ResNet 超過人類水平。很多擁有豐富數據的公司開始組建自己的人工智慧團隊。
Snapchat 就是其中之一。這家以不斷創新著稱的公司打算建設一支研發團隊(亦即後來的 Snap Research),通過複雜的演算法對圖片和視頻等用戶數據進行深入分析,做出更多更好玩的應用產品。李佳成為這家公司啟動研發的關鍵人物。2015 年 2 月,李佳擔任公司研發主管並領導該團隊。
Snapchat 的創新
2015 年,Snap 分別上線了「濾鏡」、「贊助濾鏡」(sponsored lenses)等一系列新功能都離不開 Snap 在人臉識別、3D 建模等方面獲取的技術。
期間,李佳團隊的 ACM 論文 Multi-view face detection using deep convolutional neural networks 提出了一個新的多角度面部檢測方法 Deep Dense Face Detector(DDFD),這個方法不需要標註,單個基於 CNN 的模型就可以實現多角度檢測面部,比當前最新的方法方便很多。
2016 年 4 月份,Snap 又推出了一種新功能 3D stickers,用戶可以將 emoji 貼到視頻中任何一個目標物體上,emoji 還可以一直跟蹤移動的目標物體,技術也出自李佳團隊。
擔任 Snapchat 研究負責人期間,李佳還擔任了 2016 CVPR 產業關係(Industrial Relationship)主席,以及 Springer 的 International Journal of Computer Graphics 的計算機副主編。
二
技術融入產品固然重要,但是研究成果也需要肥沃的土壤。
1998 年,貝爾實驗室,LeCun 首次將 CNN 用於實踐,打造出一個可以識別手寫數字的系統 LeNet5。不過,後來一段時期,模型沒能火起來。20 世紀 90 年代末,神經網路和反向傳播被機器學習社區大量遺棄,同時也被計算機視覺和語音識別領域忽略。人們普遍認為,學習有用的、多層級的、幾乎不靠先驗知識的特徵提取器並不現實可行。此時,李佳正從重慶一所中學進入中科大自動化系學習。
2006 年,Hinton 在深層神經網路訓練上取得了突破,向學界了展示了深度學習的可靠性。他發表在 Science 上的 Reducing the Dimensionality of Data with Neural Networks 成為深度學習史上一個里程碑。此時,李佳已經在美國跟隨李飛飛從事計算機視覺學習和研究。
這些研究人員引入無監督學習程序——無需標記數據便可創建特徵檢測器層。各層特徵檢測器的學習目標便是在下一層重構或模擬特徵檢測器(或原始輸入)的活動。利用這種重構學習目標來「預訓練(pre-training)」幾層複雜度遞增的特徵檢測器,深層網路的權重可以被初始化為合理值。接著,最終層的輸出單元可被添加到網路頂端,整個深度系統可被微調至使用標準的反向傳播。在識別手寫數字或檢測行人時,特別是當標記的數據量非常有限的時候,這一程序非常有效。
深度學習正值爆發前夜,剩下要做的就是讓世人看到深度學習的實際效果。但是,又遇到數據集這個老問題。
早在 1986 年,Rumelhart、Hinton 等人就在 Nature 上發表 Learning Internal Representations by Error Propagation,將反向傳播演算法用於訓練神經網路,使得神經網路的訓練變得簡單可行。但是,由於訓練數據集規模太小,加上計算資源有限,訓練一個較小的網路也需要很長的時間。與其它模型相比,在識別準確率上也沒有明顯優勢,更多的學者更青睞淺層機器學習模型,比如支持向量機、Boosting。
幸運的是,與二十年前不同。2000 年以來,互聯網開始大量產生各種各樣的圖片數據。大規模數據集也相伴而生,這為通過機器學習的方法來做計算機視覺提供了土壤。2007 年,在普林斯頓大學,李飛飛等研究人員開始著手一項龐大的任務。他們通過眾包的方式,標註了 1400 萬張圖片,分了大概 2 萬多個類別,這些類別包羅萬物,比如像動物,裡邊可能分為鳥類、魚類等;植物,裡面可能會分為樹和花。他們希望提供一個數據集,為計算機視覺演算法提供一個數據土壤,讓未來的機器能夠認識世界上一切物品。
李佳是這個項目的主要參與者。2009 年,在斯坦福大學讀博士期間,李佳以第四作者發表了論文 ImageNet: A large-scale hierarchical image database,被 CVPR 2009 接收。論文開創了迄今為止被應用最廣泛的圖像數據集 ImageNet,它也是全球最大的圖像識別資料庫。這篇論文也是李佳本人(到目前為止)影響力最大、引用率最高的論文。
2012 年,ImageNet 遇見深度學習,結果幾乎重新定義了計算機視覺研究。這一年,Hinton 和學生 Alex Krizhevsky 參加了 ImageNet。在此之前,卷積神經網路在很大程度上並未獲得主流計算機視覺和機器學習團體青睞。Alex Krizhevsky 用 GPU 做出一個 Deep Learning 模型,摘取 ILSVRC 2012 桂冠,在 ImageNet 上,效果大幅度超過傳統方法,從傳統的 70% 多提升到 80% 多。這個 Deep Learning 模型就是 AlexNet。AlexNet 的突破,除了得益於 GPU 和演算法改進,大量數據也功不可沒,Deep Learning 領域應該感謝 ImageNet。在 AlexNet 獲得冠軍後,第二年 ImageNet ILSVRC 2013 大賽上,排名前 20 的小組使用的都是深度學習技術。如今,卷積神經網路幾乎覆蓋所有識別和檢測任務。
李佳的領英中寫著這樣一句話「人工智慧民主化(Democratize AI)」,或許為她在數據集建設方面的工作做了最好的總結。正如李飛飛所說,數據是民主化的另一部分,像人類一樣,人工智慧需要大量數據為自我發展提供洞見。因此,數據集是人工智慧需要克服的最大障礙中的一個。
三
當被問及如何評價 Visual Genome 時,李佳說「這是升級版的 ImageNet。」數據集的搭建,往往包含著參與者對所處領域現狀和未來的思考。
2010 年到 2017 年,計算機視覺研究的主要進步發生在感知領域,比如物體識別、圖像標註、物體檢測等,我們也有了應用產品,比如谷歌照片、行人檢測系統等。接下來,更重要的課題是認知方面。如果說 ImageNet 是參與者對 2016 年之前深度學習研究狀態的思考和判斷,那麼,接下來計算機視覺的研究方向是什麼?
李飛飛認為,語言中的很大一部分都是有關描述視覺世界的。視覺在交流和語言等方面佔據著很重要的地位,我們講故事、辨別事物、區分視頻類別都是在進行圖像識別。因此,將計算機視覺和語言結合在一起會非常有趣。「一個人坐在辦公室里,但布局是怎樣的,那個人是誰,他在幹什麼,周圍有什麼物體,在發生著什麼事?」
在分析更複雜場景的任務中,深度學習很有可能將扮演關鍵角色。但是,技術會對數據提出更多的要求。因為理解一個視覺場景(visual scene)不只是要理解單獨的一個個物體。物體之間的關係也能提供豐富的有關這個場景的語義信息(semantic information)。
儘管感知任務方面進展顯著,比如圖像分類,但是,計算機仍無法很好完成認知任務,比如圖像描述以及問答。認知不僅僅是識別任務的核心,對視覺內容進行推理也離不開認知。但是,在認知任務中,被用來理解圖像豐富內容的模型的訓練數據集,仍然是那些被設用來解決認知任務的數據集。然而,要在漂亮完成認知任務,模型就要搞理解圖像中物體之間的關係。比如,當被問道「這個人騎的什麼交通工具?」,計算機需要識別出圖像中物體,以及騎(人,車)與牽引(馬,車)的關係,這樣才能做出正確的回答:人坐馬車。
谷歌、Facebook 和其它公司正在推進人工智慧演算法解析視覺場景的能力。2014 年,谷歌發布的研究展示了一種能夠在多種精度上為圖像提供基本說明的演算法。Facebook 也展示過一個能夠回答有關圖像的基本問題的問答系統。有趣的是,2017 年 IJCAI 計算機和思想獎獲得者 Devi Parikh 也是從事 VQA 研究。
「我們也正在搭建(從理解)到語言的橋樑,因為交流的方式並不是將數字分配到像素上——你需要將感知和認知與語言連接起來。」2016 初,李佳參與了 Visual Genome 項目(Visual genome: Connecting language and vision using crowdsourced dense image annotations),旨在幫助研究人員為這種關係建模。研究人員收集了物體、特徵、以及關係的密集標註,用來學習這些模型。較之於 ImageNet(也由 Stanford 大學維護),Visual Genome 圖像標籤更為豐富,包括名字、圖片的不同細節,以及在對象和動作信息之間的關係,語義信息更豐富,可用以拓展更加豐富的基於圖像及語義信息的人工智慧應用。
目前,這個數據集包括 108249 張圖片、420 萬區域內容描述(Region Descriptions)、170 萬圖像內容問答(Visual Question Answers)、210 萬對象案例(Object Instances)、180 萬屬性(Attributes)、180 萬關係(Relationships)。我們規範轉化了從物體、屬性、關係、區域描述里的名詞短語和問答對到 WordNet 同義詞集的關係。這些注釋代表了圖像描述、物體、屬性、關係和問答里最密集、規模最大的數據集。
這是第一個能夠提供結構化地對圖片進行形式化表示的數據集,在這種形式下能夠大量用於 NLP 的基於知識的展示中。「這個數據集為兩種模式結合與新模型測試提供了一個新的可擴展的方法。」
可以想見,它們還能訓練計算機了解物理可能的概念或不可能發生的概念,從而讓計算機擁有更多常識。Richard Sochar 說,這可能就是這一項目中最重要的一面。
Visual Genome 是一個數據集,知識庫,不斷努力把結構化的圖像概念和語言連接起來
和建立了兩個被人工智慧研究者廣泛用來教會機器分類物體的資料庫的李飛飛相似,李佳也著手了另一個重要多媒體資料庫的建立。2016 年,李佳 ACM 論文 YFCC100M: the new data in multimeesearch 介紹了 Yahoo Flickr Creative Commons 100 Million Dataseta(YFCC100M)數據集,這是一個包含令人關注且科學上實用的數據集的參考庫,也是有史以來最龐大的公共多媒體集合,包含總計 1 億個媒體對象(大約 9920 萬張照片,80 萬個視頻)和標籤,它們全都是上傳至 Flickr 並根據 CC 商用或非商用許可證發布。與許多數據集一樣,YFCC100M 也處於不斷演進之中。YFCC100M 數據集克服了影響現有多媒體數據集的許多問題,例如在形態、元數據、許可以及最主要的體積大小方面。
四
除了數據集方面的重要貢獻,李佳在圖像識別和場景理解領域也做出了自己的貢獻。下圖給出了 Semantic Scholar 統計的李佳的學術影響力和影響關係,可以看到,李飛飛和李佳的研究合作關係非常緊密。
李佳發表過的其它一些重要論文,涉及高層特徵分析、場景理解等多個方向。尤其是在 2010 年,帶有李佳的姓名的論文出現在了 NIPS、ECCV、CVPR 等頂級學術會議上,其中一些研究結果達到了當時的最佳水平,甚至有的已經成為了後來進一步研究的常用方法。
比如在 NIPS 2010 上,李佳等人(其他作者包括李飛飛、邢波)在論文 Object Bank: A High-Level Image Representation for Scene Classification and Semantic Feature Sparsification 中提出的 Object Bank 描述方法。這種方法的主要思想是在更高的層面上提取出一張圖片中儘可能多的物體的信息,將其組合起來,使其有助於場景的分類(儘管低水平特徵在場景分類以及物體識別中有著比較好的應用,但其包含的語義信息卻更少)。用 Object 作為特徵,計算圖像對不同特徵的響應,並根據其響應情況進行分類。該方法不僅能夠用於圖像分類,還能說明圖像中存在哪些種類的 Object。
而在複雜場景理解方面,李佳等研究者的另一項 NIPS 2010 研究 Large Margin Learning of Upstream Scene Understanding Models 試圖帶來一些進步。在這篇論文中,研究者提出了一種最大邊界(max-margin)和最大似然學習(max-likelihood learning)的聯合方法來解決複雜場景的理解問題,其中隱主題發現和預測模型估計是緊密耦合的,並且得到了很好的平衡。通過使用一個變分 EM 流程,這個優化問題得到了有效的解決,其能迭代式地解決在線損失增強的 SVM。
另外在場景分類方面。李佳等研究者在 ECCV 2010 的論文 Objects as Attributes for Scene Classification 中提出了將物體用作場景屬性以進行場景分類的方法。這些表徵帶有高層面語義信息,使其更加適合高層面的視覺識別任務。該研究表明我們可以使用支持向量機等已有的分類器來在物體層面上進行場景分類等高層面的視覺任務。在當時的標準下,該方法的表現超越了之前的其它方法。
場景中的內容也是李佳的研究目標之一。在 CVPR 2010 上,李佳第一作者的論文 Building and Using a Semantivisual Image Hierarchy 提出了一種通過整合圖像和標籤信息來自動發現「語義視覺(semantivisual)」圖像層次的新方法。該方法可結合圖像的語義和視覺信息來有效創建圖像層次,且相對於其它的分層方法,本論文所提出的語義視覺層次更有意義、更精確。
結語
在剛剛結束不久的谷歌 I/O 開發者大會上,Google Lens 引發不少關注。除了拍照識物,還能隨便掃描一家餐館,然後自動在 Google 的資料庫里找到對應資料顯示出來,包括點名、菜式、評分、打烊時間等。Google Photos 也變得更加聰明。利用機器學習技術,它能提醒用戶自動與照片中的人共享照片 ,據說未來還將整合 Google Lens 的圖像識別能力,提供一系列新特性,比如識別照片中的電話號碼。
這些技術的發展和應用會繼續改善我們的生活,李佳為計算機視覺領域所做出的基礎性貢獻也仍然將繼續推動這一領域的發展,其女性身份也在激勵著新一代女性進入計算機科學等前沿研究領域和更廣泛地參與到科技領域的發展進步中。
谷歌雲業務負責人 Diane Greene 曾說,最令人欣喜的一點是李飛飛和李佳均為女性。在人工智慧領域,各大高校和技術公司的重要研究崗位上一直缺乏女性。她們兩人代表著人工智慧熱門領域的、世界領先的研究科學家、實踐者和領導者。
機器之心原創
推薦閱讀:
※估值250億美元的Snapchat要上市了
※?如果你覺得陌陌7.0新功能是照抄snapchat 那你就錯了……?
※SnapChat上市股價暴漲,為何找不到中國版跟隨者?
※Snapchat 作為一個閱後即焚產品推出內容平台 Discover 有何戰略意義?
※Snapchat B 輪融資 8000 萬美元,估值 8 億美元,價值體現在哪?
TAG:谷歌Google | 斯坦福大学StanfordUniversity | Snapchat |