看圖聊天的騷操作,MIT開發精準到單詞的語音-圖像配對系統
來自專欄機器之心35 人贊了文章
選自news.mit,作者:Rob Matheson,機器之心編輯部,參與:張倩、劉曉坤、王淑婷。
MIT 計算機科學家開發了一個系統,可以根據有關圖像的語音描述學習識別、定位、檢索其中的目標。給定一幅圖像和一份語音描述,模型就能實時找出圖像中與特定辭彙描述相符的相關區域,這樣配置了該功能的語音助手也能跟你一起分享看照片的心情了。該方法有望應用於無監督雙語翻譯,相關論文發表在 ECCV2018 上。
與當前語音識別技術不同,該模型不需要人工轉錄和注釋其所訓練的例子,而是直接從原圖像的錄音片段和目標中學習辭彙,然後建立它們之間的聯繫。
該模型現在只能識別幾百個單詞和物體類型,但研究人員希望這一「語音-目標」組合識別技術將來能夠為人類節省很多時間,同時為語音和圖像識別技術打開新的大門。
語音識別系統(如 Siri)需要轉錄幾千個小時的錄音。該系統使用這些數據學會匹配語音信號與特定辭彙。如果有新詞加入詞典,這種方法就不好用了,而且系統必須重新訓練。
「我們想用一種更自然的方式做語音識別,利用人類便於使用的額外信號和信息,但機器學習演算法通常無法利用這些信息。我們訓練模型的方法類似於讓一個小孩走過一個區域,然後描述他看到了什麼,」計算機科學和人工智慧實驗室(CSAIL)及口語系統小組研究員 David Harwath 表示。Harwath 在一篇 ECCV 大會論文中描述了這一模型。
在該論文中,研究人員展示了他們的模型。他們使用的圖像中有一個金髮碧眼的小女孩,穿著藍色連衣裙,背景是一座紅頂的白色燈塔。該模型學會了建立圖像中的元素與「女孩」、「金髮」、「藍眼睛」、「藍色裙子」、「白色燈塔」和「紅色屋頂」之間的關聯。給出一段音頻描述,模型會根據描述顯示出圖像中的每個目標。
學習不同語言之間無需雙語注釋的翻譯是該技術一種有前景的應用。全世界大約有 7000 種口語,其中只有大約 100 種具有充足的語音識別轉錄數據。如果模型從與圖像中的目標對應的語言 A 中學習語音信號,同時從對應於相同目標的語言 B 中學習語音信號,該模型就能假設這兩種信號(及對應的詞)可以互譯。
「這有可能是一種巴別魚式的機制,」Harwath 說,巴別魚是《銀河系漫遊指南》小說中虛構的一種生物耳機,它將不同的語言翻譯給佩戴者。該論文的合著者包括 CSAIL 的研究生 Adria Recasens、訪問生 Didac Suris、前研究員 Galen Chuang、電氣工程和計算機科學教授兼 MIT-IBM 沃森人工智慧實驗室負責人 Antonio Torralba 及領導 CSAIL 口語系統小組的高級研究科學家 James Glass。
聲音-視覺關聯
這項研究基於早期由 Harwath、Glass、Torralba 開發的將語音與主題相關的圖像關聯起來的模型。在早期研究中,他們從眾包的 Mechanical Turk 平台的分類資料庫提取場景圖像。然後他們讓人們按照向嬰兒敘述的方式用大約 10 秒的時間來描述圖像。他們編譯了超過 20 萬對圖像和音頻描述,涉及數百個不同的類別,例如海灘、購物廣場、城市街道和房間等。
場景識別資料庫:http://places.csail.mit.edu/
然後他們設計了一個由兩個獨立的卷積神經網路構成的模型。一個處理圖像,另一個處理聲譜(音頻信號隨時間變化的可視化表示)。模型的最頂層計算兩個網路的輸出並對語音模式和圖像數據進行映射。
例如,研究人員將描述 A 和圖像 A(正確配對)饋送給模型。然後他們再饋送一個隨機描述 B 和圖像 A(錯誤配對)。在比較了圖像 A 的數千個錯誤配對之後,模型學習到了對應圖像 A 的語音信號,並關聯描述中的單詞信號。如 2016 年的這篇論文所述,模型學習選取對應單詞「水」的信號,並檢索包含水的圖像。「但它並沒有提供用特定單詞檢索特定圖像像素塊的功能。」Harwath 說。
相關鏈接:http://news.mit.edu/2016/recorded-speech-images-automated-speech-recognition-1206
製作匹配圖
在這篇新論文中,研究人員修改了模型,將特定單詞與特定像素塊相關聯。他們在同一個資料庫上訓練了該模型,但圖像-描述為 40 萬對。他們隨機拿出了 1000 對用來進行測試。
在訓練中,模型同樣會得到正確和錯誤的圖像和描述配對。但這一次,圖像分析 CNN 將圖像分成了由像素塊組成的網格。音頻分析 CNN 將聲譜圖分成幾段,比如一秒捕捉一兩個單詞。
對於正確的圖像和描述對,模型將網格的第一個單元與第一段音頻匹配,然後將同一單元與第二段音頻匹配,以此類推,一直貫穿每個網格單元,跨越所有時間段。對於每個單元和音頻片段,它提供相似性分數,這取決於信號與目標的匹配程度。
問題是,在訓練過程中,模型無法獲取語音和圖像之間的任何真實對齊信息。Harwath 說,「該論文的最大貢獻是,通過簡單地教導網路哪些圖像和描述屬於同一組,哪些對不屬於同一組,證明了這些跨模態(視-聽)信息可以自動推斷對齊。」
研究人員將語音說明的波形與圖像像素之間的這種自動學習關聯稱為「匹配圖」。經過成千上萬對圖像-描述的訓練,網路將這些對齊縮小到代表匹配圖中特定目標的特定單詞。
Harwath 還表示,「這有點像大爆炸,物質被分解,然後合併成行星和恆星。預測開始分散開來,但是經過訓練後,它們會匯聚成對,代表語音和視覺目標之間有意義的語義基礎。」
卡內基梅隆大學語言技術研究所的副教授 Florian Metze 說,「看到神經方法現在也能夠將圖像元素與音頻片段聯繫起來,而且不需要文本作為中介,真是令人興奮。與人類的學習不同,這種方法完全基於相關性,沒有任何反饋,但它可能幫助我們理解共享表徵是如何由聽覺和視覺線索形成的。」
論文:Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input
論文鏈接:http://openaccess.thecvf.com/content_ECCV_2018/papers/David_Harwath_Jointly_Discovering_Visual_ECCV_2018_paper.pdf
推薦閱讀:
※CVPR 2018 | 商湯科技論文詳解:基於空間特徵調製的圖像超解析度
※Noise2Noise:圖像降噪,無需乾淨樣本,原因非常簡單
※OPPO和IFAA共同定義安全人臉,引領3D視覺技術發展
※詳解殘差網路