谷歌最前沿:計算機實現自我編程、深度學習診斷預防失明、神經機器翻譯系統、RadarCat物體識別,顛...

  • 谷歌最前沿:人工智慧唇讀術、多語言神經機器翻譯、隔空感應物體

  • 谷歌新目標——讓計算機實現自我編程

    自主機器時代不再遙遠

    來源:新智元

    【新智元導讀】 許多人對AI的想像都停留在應用層,而忽視了技術層AI也將產生顛覆——讓機器自己編程。谷歌大腦、DeepMind、Facebook甚至Viv 都在這一方向上努力,發表了一系列研究論文。Venture Beat 作者 Lucas Carlson認為,機器自我編程其實離我們並不遙遠,將很快實現。一旦機器做到這一步,在軟體發揮重大作用的所有領域,將會經歷一場顛覆性的變革。

    想像AI 的未來是很有趣的:家庭服務機器人、亞馬遜的智能家庭中樞(Echo)等設備將走進每家每戶,還有無人機快遞和更加精準的醫學診斷。這些吸人眼球的消費應用充斥著公眾的想像,以至於大家都忽視了AI對另一個領域的顛覆——軟體本身的發展。

    想像一下,如果計算機自己能理解自己,它們可以做些什麼?用不了多久,計算機就能做到這件事。並且,我不是在描述遙遠的未來,我說的是觸手可及的現在,使用時下現有的技術就能達到。

    迄今為止,機器學習的專家傾向於聚焦那些為特定任務開發的AI 應用,比如人臉識別、自動駕駛、語音識別甚至是搜索。但是,如果這些類似的演算法能夠在不需要人為幫助、解釋或者干預的情況下,理解它們自身的代碼結構呢?正如他們理解人類的語言和圖像一樣。

    如果代碼開始對自己進行分析、自我修正並提升,且速度比認為的更快,那麼技術的突破可能會來得更快。由此帶來的可能性是無止境的:醫學的進步、更加自然的機器人、更智能的手機、更少bug的軟體,更少的銀行欺詐等等。

    人工智慧具有解決軟體開發中的一個古老問題的潛力。代碼編寫或操縱其他代碼的能力的概念已經存在了很長時間,一般稱為元編程(它實際上起源於20世紀50年代末的Lisp)。它解決的難題,目前都還在人們的想像之中。

    但是,現在人工智慧讓改變發生了。

    使用人工智慧,計算機能夠理解一個軟體開發項目從無到有的發展歷史過程中的所有代碼,並立即改進或者刪除單獨一行代碼中的bug,不管是用什麼編程語言。即便是一個缺乏經驗的或者中等水平的程序員都能講清楚讓計算機自我編程的原理。由此,一個癌症項目的研究可能幾天或者幾個月就能完成,而不需要花費好幾年的時間,這將帶來顯著的進步。

    今天,這項最終將會帶來顛覆性改變的技術尚處在萌芽時期,但是,它已經開始生長。比如,谷歌的TensorFlow機器學習軟體,讓每位程序員都能將神經網路直接融入到所開發的APP中,讓APP擁有識別圖片中的人和物體的能力。要把這些想法變成現實,你將不再需要一個博士學位。讓業餘人士也可以修正程序,這可能會成為AI發展歷史上最大的突破。

    谷歌的目標:大部分代碼都不需要人為編寫

    國外著名科技記者 Steven Levy 今年 6 月在他刊於 BackChannel 的文章《谷歌如何將自己重塑為一家「AI 為先」的公司》(How Google Is Remaking Itself As A "Machine Learning First" Company)中提到,谷歌大腦負責人 Jeff Dean 表示,隨著他和團隊對機器學習了解得更多,他們利用機器學習的方法也更加大膽。「以前,我們可能在系統的幾個子組件中使用機器學習,」Jeff Dean 說:「現在我們實際上使用機器學習來替換整套系統,而不是試圖為每個部分製作一個更好的機器學習模型。」Levy 在文中寫道,如果現在讓 Jeff Dean 改寫谷歌的基礎設施,大部分代碼都不會由人編碼,而將由機器學習自動生成。

    谷歌的代碼bug預測系統,使用一個得分演算法,隨著commits變得越來越舊,它們的價值越來越小。

    認為計算機自我編程離我們還很遠?如果我告訴你,一些大公司,比如谷歌,已經開始在內部的項目管理系統中嘗試使用這一概念,你可能會覺得震驚。但是,谷歌確實已經開發了一個 bug 預測程序,使用機器學習和統計分析,來判斷某一行代碼是否存在瑕疵。谷歌工程師、W3C的聯合主席Ilya Grigorik 也開發了一個開源版本的 bug 預測工具,目前已被下載 2萬次。

    開源地址:https://github.com/igrigorik/bugspots

    Ilya Grigorik ,圖片來自twitter

    另一個例子來自Siri 的繼承者——Viv。Wired 最近的一篇報道中寫道,Viv 不僅使用一系列的自然語言處理來實現語言識別, 還基於英語辭彙建立了複雜的自適應性計算機程序。代碼自己寫代碼(Code writing code)。由於被寫入的代碼是經過Viv的開發人員自己訓練和專門化的,所以這裡的「寫代碼」並不是我們通常所說的寫代碼的能力,但這確實是一個大的進步。

    在這個方向上,另一個大的進步來自非專業領域。Emil Schutte 曾有過一句非常具有挑釁性的言論:厭倦了寫代碼?我也是!讓Stack Overflow來做這件事吧。他分享了一個例子來證明這一概念,從Stack Overflow 的大型編程資料庫中提取完整的工作代碼,來提供完整的功能代碼塊,但是,這樣得到的模塊還是基於已經寫好的代碼。

    DeepMind 的嘗試

    實際上更早之前,DeepMind 團隊開發了一個「神經編程解釋器」(NPI),能自己學習並且編輯簡單的程序,排序的泛化能力也比序列到序列的 LSTM 更高。描述這項研究的論文《神經程序解釋器》(Neural Programmer-Interpreters),被評選為 ICLR16 最佳論文。

    NPI 是一種遞歸性的合成神經網路,能學習對程序進行表徵和執行。NPI 的核心模塊是一個基於 LSTM 的序列模型,這個模型的輸入包括一個可學習的程序嵌入、由調用程序傳遞的程序參數和對環境的特徵表徵。這個核心模塊的輸出包括,一個能指示接下來將調用哪個程序的鍵、一個經典演算法程序的參數,以及一個能指示該程序是否該停止的標記。除了遞歸性內核外,NPI 構架還包括一個內嵌的可學習程序的鍵值內存。這種程序-內存的結構對於程序的持續學習和重用是極其重要的。

    圖 6:NPI 與 序列到序列 LSTM對不同長度的序列進行排序的準確率對比,最長序列含有20個數組。

    NPI 有三個擁有學習能力的部件:一是任務未知的遞歸內核,二是持續鍵值程序內存,三是基於特定領域的編碼器,這個編碼器能在多個感知上有差異的環境中讓單一的 NPI 提供截然不同的功能。通過合成低層程序表達高層程序,NPI 減少了樣本複雜性,同時比序列到序列的 LSTM 更容易泛化。通過在既有程序的基礎上進行建構,程序內存能高效學習額外的任務。NPI 也可以利用環境緩存計算的中間結果,從而減輕遞歸隱藏單元的長期存儲負擔。

    不過,當時 DeepMind 團隊並未使用無監督學習的方法的訓練 NPI,其模型也只能學習合成若干種簡單的程序,包括加法、排序和對 3D 模型進行正則化轉換。不過,單一 NPI 能學會執行這些程序以及所有 21 個關聯子程序。

    田淵棟對計算機自我編程的研究綜述

    Facebook 人工智慧實驗室研究員田淵棟在他提交 ICLR17 的文章中,就有一篇研究了這方面的問題。

    論文摘要:構建能夠通過自動推斷(infer),將一組輸入映射到輸出的計算機程序仍是一個開放且極具挑戰性的問題。由於在可能的程序上存儲著巨大的搜索空間,並且需要處理高階邏輯(如 for循環或遞歸),所以程序進行歸納(induction)任務是很困難的。在本文中,我們使用 Hierarchical Generative Convolutional Neural Networks(HGCNN),自動根據輸入/輸出對生成程序。HGCNN 以層次式預測候選代碼串,由此可以使用標準的搜索技術來構造程序。應當注意,該模型僅使用隨機生成的程序進行訓練,因此可被視為一種無監督學習的方法。我們證明,文中所提出的方法可以生成程序,從簡單的 Swap 到更複雜的循環和分支(比如找到一串數組中的最大值)。我們還展示了使用該方法,在實現諸如 Bubble Sort 等嵌套循環程序時取得的不錯結果。將 LSTM 等作為比較的基礎,新方法的預測精度有了顯著的提高。

    田淵棟在《深度學習沒有解決的理論問題》里表示,這篇論文將演算法的輸入輸出的結果抽取特徵後,送入卷積神經網路文獻中,再層次式地生成圖像的經典框架,生成一張二維圖,每一行就是一行代碼,或者更確切地說,是代碼的概率分布。有了好的分布,就可以幫助啟發式搜索找到正確的程序。而神經網路的訓練數據,則由大量的隨機代碼、隨機輸入及隨機代碼執行後得到的輸出來提供——基本不需要人工干預,算是一種非監督的辦法。

    同時,田淵棟還在後面補充:「等到今年的 ICLR 的文章一公布,隨便翻一翻就找到了七篇計算機自動生成(或者自動優化)代碼的文章。打開一看,引論里全在描述同樣的動機。」

    那這個動機就是什麼?

    「讓計算機自己寫代碼」。

    一旦機器可以理解自己,一場顛覆性變革將會發生

    隨著越來越多的這類技術變得成熟,機器將會在各種各樣的任務上超越人類。那麼,機器為什麼不能理解自己呢?我想這只是時間的問題。並且,一旦機器做到這一步,你會發現,在軟體發揮重大作用的所有領域,將會經歷一場顛覆性的變革。

    人工智慧的核心挑戰之一便是教會機器學習新的程序、從既有程序中快速地編寫新程序,並自動在一定條件下執行這些程序以解決廣泛種類的任務。在各種人工智慧問題中,程序以不同的面貌出現,包括運動行為、圖像轉換、強化學習策略、經典演算法和符號關係等等。

    現在,機器已經能夠自動執行越來越多的程序,而且現在開源代碼這麼多,如果把歷史上的代碼都學習一下,很多編程場景應該是可以自動化的,至少可以大大減少人工。人類程序員尤其是初級程序員的工作被取代的可能性,也越來越大。

    (來源:新智元、github,venturebeat 等,編譯:新智元)


    谷歌最新研究:深度學習檢測糖尿病性眼疾

    致力讓更多人遠離失明

    來源:大數據文摘

    糖尿病性視網膜病變(Diabeticretinopathy,下稱DR)是增長最快的導致失明的原因,全世界有近4.15億糖尿病患者處於這種危險之中。如果早期發現,可以治療該疾病; 如果沒有及時發現,它可能導致不可逆的失明。不幸的是,在世界上糖尿病非常普遍的許多地方沒有能夠檢測該疾病的醫學專家。

    在北京時間11月30日凌晨,谷歌團隊在其blog上宣布,在美國醫學協會雜誌(JAMA)剛剛發表的一篇論文中,他們提出了一種能夠解釋視網膜照片中的DR跡象的深度學習演算法,潛在地幫助醫生在資源有限的情況下篩選更多的患者。

    谷歌團隊相關負責人稱,他們希望通過機器學習,更好的幫助醫生識別有這樣需要的患者,特別是弱勢人群。

    以下為谷歌相關團隊負責人關於該研究的介紹:

    幾年前,我們幾個人開始思考是否有一種Google技術可以改善DR篩選過程的方法,特別是利用機器學習和計算機視覺方面的最新進展。在今天發表在美國醫學協會雜誌(JAMA)的文章「用於檢測視網膜眼底照片中的糖尿病性視網膜病變的深度學習演算法的開發和驗證(Developmentand Validation of a Deep Learning Algorithm for Detection of DiabeticRetinopathy in Retinal Fundus Photographs)中,我們提出了一種能夠解釋視網膜照片中的DR跡象的深度學習演算法,潛在地幫助醫生在資源有限的情況下篩選更多的患者。

    檢測糖尿病性眼病的最常見方法之一是讓專科醫生檢查眼後部的照片(圖1),並對疾病存在和嚴重程度進行評估。嚴重性由存在的損傷的類型(例如,微動脈瘤,出血,硬滲出物等)確定,其意味著眼睛中的出血和流體泄漏。解釋這些照片需要專門的培訓,在世界上許多地區沒有足夠的合格分級師來篩選出每個有此疾病風險的患者。

    圖1:用於篩選DR的視網膜眼底照片的示例。左側的圖像是健康的視網膜(A),而右側的圖像是具有可引起的糖尿病性視網膜病變(B)的視網膜,因為存在許多出血(紅斑)。

    我們與印度和美國的醫生密切合作,創建了一個128,000張圖像的開發數據集,每個由來自54名眼科醫生團隊中的3-7名眼科醫生進行評估。該數據集用於訓練深層神經網路以檢測可引起的糖尿病視網膜病變。然後,我們在兩個獨立的臨床驗證集上測試演算法的性能,總共約12,000個圖像,以7或8個擁有美國專業委員會認證的眼科醫生中的大多數意見作為參考標準。選擇用於驗證集的眼科醫生是從原來的54名醫生中正確率教高的眼科醫生。

    在圖2中示出了演算法和眼科醫生在9,963圖像驗證集上的性能。

    圖2.在由9963個圖像組成的驗證集上,存在可引起的糖尿病性視網膜病變(中度或更差的糖尿病性視網膜病變或可疑的糖尿病性黃斑水腫)的演算法(黑色曲線)和八個眼科醫師(彩色圓點)的性能。圖上的黑色菱形對應於在高靈敏度和高特異性操作點中,演算法的靈敏度和特異性。

    結果表明,我們的演算法的性能與眼科醫生的性能一致。例如,在圖2中描述的驗證集上,演算法具有0.95的F-Score(綜合靈敏度和特異性的度量,最大值為1),演算法性能略高於我們所諮詢的8個眼科醫生的F-Score中值(0.91)。

    這些都是令人興奮的結果,但仍有很多工作要做。首先,雖然用於評估我們的演算法的常規質量度量結果是鼓舞人心的,我們正在與視網膜專家合作,以定義甚至更強大的參考標準,可用於量化性能。此外,我們在本文中證明的2D眼底照片的解釋只是導致糖尿病眼病診斷的多步驟過程的一部分。在某些情況下,醫生需要使用3D成像技術,光學相干斷層掃描(OCT),詳細檢查視網膜的各個層。將機器學習應用於這種3D成像模式已經在DeepMind的同事的領導下進行。在將來,這兩種補充方法可以一起使用,以幫助醫生診斷更多的眼科疾病。

    具有高精度的自動DR篩選方法有很大的潛力,以幫助醫生評估更多的患者,並且快速地將需要特殊幫助的人發送給專家。我們正在與醫生和研究人員一起研究世界各地的篩查過程,希望我們能夠以最有利的方式將我們的方法整合到臨床工作流程中。最後,我們正與食品藥品監督管理局(FDA)和其他監管機構合作,在臨床研究中進一步評估這些技術。

    考慮到深度學習的許多最新進展,我們希望我們的研究只是眾多引人注目的例子之一,證明機器學習能夠更廣泛地幫助解決醫療成像在醫療保健中的重要問題。

    來源:大數據文摘(ID:BigDataDigest),編譯:Aileen 魏子敏


    【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統AI 巴別塔有望成真(附論文)

    來源:新智元

    【新智元導讀】谷歌今日更新博客,介紹了谷歌神經機器翻譯系統重大更新,實現了用單一模型對多語種通用表徵。這種新的模型體積不僅與多語言翻譯模型一樣,參數相同,而且速度更快、質量更高。不僅如此,系統還實現「零數據翻譯」,也即能夠在從來沒有見過的語言之間進行翻譯。這意味著傳說中的「巴別塔」有望成真。【進入新智元公眾號,在對話框輸入「1123」下載論文】

    (文/Mike Schuster,Melvin Johnson,Nikhil Thorat)過去10年中,谷歌翻譯已從僅支持幾種語言發展到了支持 103 種,每天翻譯超過了 1400 億字。為了實現這一點,我們需要構建和維護許多不同的系統,以便在任何兩種語言之間進行轉換,由此產生了巨大的計算成本。神經網路改革了許多領域,我們確信可以進一步提高翻譯質量,但這樣做意味著重新思考谷歌翻譯背後的技術。

    今年 9 月,谷歌翻譯改為啟用谷歌神經機器翻譯(GNMT)的新系統,這是一個端到端的學習框架,可以從數百萬個示例中學習,並在翻譯質量方面有顯著提升。不過,雖然啟用 GNMT 的幾種語言翻譯質量得到了提升,但將其擴展到所有 103 種穀歌翻譯支持的語種,卻是一個重大的挑戰。

    實現零數據翻譯(Zero-Shot Translation)

    在論文《谷歌多語言神經機器翻譯系統:實現零數據翻譯》(Google』s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation)中,我們通過擴展以前的 GNMT 系統解決這一挑戰,使單個系統能夠在多種語言之間進行翻譯。我們提出的架構不需要改變基本的 GNMT 系統,而是在輸入句子的開頭使用附加的「token」,指定系統將要翻譯的目標語言。除了提高翻譯質量,我們的方法還實現了「Zero-Shot Translation」,也即在沒有先驗數據的情況下,讓系統對從未見過的語言進行翻譯。

    下圖展示了最新 GNMT 的工作原理。假設我們使用日語和英語以及韓語和英語之間相互翻譯為例,訓練一個多語言系統,如動畫中藍色實線所示。這個新的多語言系統與單個 GNMT 系統大小一樣,參數也一樣,能夠在日英和韓英這兩組語言對中進行雙語翻譯。參數共享使系統能夠將「翻譯知識」(translation knowledge)從一個語言對遷移到其他語言對。這種遷移學習和在多種語言之間進行翻譯的需要,迫使系統更好地利用其建模能力。

    由此,我們想到:能夠讓系統在從未見過的語言對之間進行翻譯嗎?例如韓語和日語之間的翻譯,系統並沒有接受過日韓之間翻譯的訓練。但答案是肯定的——雖然從來沒有教過它但,新的系統確實能夠生成日韓兩種語言之間合理的翻譯。我們將其稱為「零數據」(zero-shot)翻譯,如動畫中的黃色虛線所示。據我們所知,這還是首次將這種類型的遷移學習應用機器翻譯中。

    零數據翻譯的成功帶來了另一個重要的問題:系統是否學會了一種通用的表徵,其中不同語言中具有相同意義的句子都以類似的方式表示,也即所謂的「國際通用語」(interlingua)?使用內部網路數據的三維表徵,我們能夠看見系統在翻譯日語、韓語和英語這幾種語言時,在各種可能的語言對之間進行轉換(比如日語到韓語、韓語到英語、英語到日語等等)時,內部發生的情況。

    上圖中的(a)部分顯示了這些翻譯的總體幾何構成。圖中不同顏色的點代表不同的意思;意思相同的一句話,從英語翻譯為韓語,與從日語翻譯為英語的顏色相同。我們可以從上圖中看到不同顏色的點各自形成的集合(group)。(b)部分是這些點集的其中一個放大後的結果,(c)部分則由原語言的顏色所示。在單個點集中,我們能夠看到日韓英三種語言中,擁有相同含義的句子聚在一起。這意味著網路必定是對句子的語義進行編碼,而不是簡單地記住短語到短語之間的翻譯。由此,我們認為這代表了網路中存在了一種國際通用語(interlingua)。

    我們在論文中還寫下了更多的結果和分析,希望這些的發現不僅能夠幫助從事機器學習或機器翻譯的研究人員,還能對於語言學家和對使用單一系統處理多語言感興趣的人有用。

    最後,上述多語言谷歌神經機器翻譯系統(Multilingual Google Neural Machine Translation)從今天開始將陸續為所有谷歌翻譯用戶提供服務。當前的多語言系統能夠在最近推出的16個語言對中的 10 對中進行轉化,提高了翻譯質量,並且簡化了生產架構。

    商業部署後,實現技術上的突破

    正如前文所說,今年 9 月,谷歌宣布對部分語種啟用谷歌神經機器翻譯(GNMT)的新系統,並在幾種率先使用的測試語種(包括漢語)翻譯質量方面得到了顯著提升。下面的動圖展示了 GNMT 進行漢英翻譯的過程。首先,網路將漢字(輸入)編碼成一串向量,每個向量代表了當前讀到它那裡的意思(即 e3 代表「知識就是」,e5 代表「知識就是力量」)。整句話讀完之後開始解碼,每次生成一個作為輸出的英語單詞(解碼器)。

    要每一步生成一個翻譯好的英語單詞,解碼器需要注意被編碼中文向量的加權分布中,與生成英語單詞關係最為密切的那個(上圖中解碼器 d 上面多條透明藍線中顏色最深的那條),解碼器關注越多,藍色越深。

    使用人類對比評分指標,GNMT 系統生成的翻譯相比此前有了大幅提高。在幾種重要語言中,GNMT 將翻譯錯誤降低了 55%-58%。

    不過,當時也有很多研究人員認為,當時谷歌翻譯取得的「里程碑」,與其說是技術突破,不如說是工程上的勝利——大規模部署本身確實需要軟硬體方面超強的實力,尤其是想谷歌翻譯這樣支持 1 萬多種語言的商業應用,對速度和質量的要求都非常的高。但是,神經機器翻譯的技術早已存在,借鑒了語言和圖像處理方面的靈感,是多種技術的整合。

    現在,只用了大約 2 個月的時間(論文首次上傳到 arXiv 是 11 月 14 日),谷歌翻譯和谷歌大腦團隊就實現了技術上的突破——讓系統在從未見過的語言對之間進行翻譯,也即所謂的「zero-shot translation」。

    不僅如此,谷歌研究人員還在論文最後做了分析,新的模型代表了實現一種「國際通用語」模型的可能。有評論稱,這可以說是實現「巴別塔」的第一步。

    谷歌神經機器翻譯系統架構

    就在幾天前,國外研究員 Smerity 在他的博客上發布了一篇分析谷歌神經機器翻譯(GNMT)架構的文章,在 HackerNews、Reddit 等網站都引發了很多討論。

    Smerity 在博文中指出,GNMT 的架構並不標準,而且在很多情況下偏離主流學術論文中提出的架構。但是,根據谷歌特定的需求,谷歌修改了系統,重點保證系統的實用性而並非追求頂尖結果。

    【論文】谷歌的多語言神經機器翻譯系統:實現 zero-shot 翻譯

    【摘要】我們提出了一種使用單一神經機器翻譯(NMT)模型,在多語種之間進行翻譯簡潔而優雅的解決方案。不需要修改谷歌現有的基礎系統模型架構,而是在輸入句子的前面加入人工 標記(token)明確其要翻譯成的目標語言。模型的其他部分(包括編碼器、解碼器和注意模型)保持不變,而且可以在所有語言上共享。使用一個共享的 wordpiece vocabulary,這種方法能夠使用單一模型實現多語種神經機器翻譯,而不需要增加參數,相比此前提出的方法更為簡單。實驗表明,這種新的方法大部分時候能提升所有相關語言對的翻譯質量,同時保持總的模型參數恆定。

    在 WMT" 14 基準上,單一多語言模型在英法雙語翻譯上實現了與當前最好技術相同的結果,並在英德雙語翻譯上超越當前最佳的結果。同時,單一多語言模型分別在 WMT"14 和 WMT"15 基準上,超越了當前最佳的法英和德英翻譯結果。在用於生產的語料庫上,多達 12 個語言對的多語言模型能夠實現比許多單獨的語言對更好的表現。

    除了提升該模型訓練所用的語言對的翻譯質量之外,新的模型還能在訓練過程中將沒有見過的語言對相互聯繫起來(bridging),表明用於神經翻譯的遷移學習和零數據翻譯是可能的。最後,我們分析了最新模型對通用語言間表徵的跡象,還展示了一些混合語言時會出現的有趣案例。

    編譯來源:

    https://research.googleblog.com/2016/11/zero-shot-translation-with-googles.html

    http://smerity.com/articles/2016/google_nmt_arch.html?

    來源: 新智元、Google Research,作者:Mike Schuster (Google Brain), Melvin Johnson (Google Translate) and Nikhil Thorat (Google Brain ),編譯:李靜怡


    你是個什麼東西?

    谷歌逆天黑科技現在就可以告訴你。

    今天我們再來講講谷歌的黑科技。。

    前不久,托尼剛跟員工們介紹過谷歌推出的世界上首台搭載 Google Tango 技術的手機 Lenovo Phab2。。就是那個有四個攝像頭的手機。。

    還有我們熟知的模塊化手機 Project Ara,智能家庭管家 Google Home,以及手勢操作設備 Project Soil等等。。

    (Project Soil)

    當然,谷歌除了自己經常開發各種各樣的黑科技,他開源的代碼以及晶元也給很多的研究人員帶來了巨大福利。

    最近蘇格蘭聖安德魯斯大學的研究人員基於谷歌 Project Soil Alpha 開發工具包,研製出了一個更加逆天的黑科技——

    RadarCat。。

    簡單的說,RadarCat 可以識別你拿的到底是什麼東西。。

    一塊木頭。

    (看圖片紅色圈圈內顯示的內容)

    還是一塊橡皮擦。。

    杯子里裝的是水?

    芬達還是可樂。。

    這是一個蘋果,那麼它到底熟了木有?

    還有,這個橘子,到底酸不酸??

    識別手機型號以及手機的基本信息。

    甚至連手機的正反面都知道。。

    簡直神了,沒有什麼是他不知道的。。

    RadarCat 的基本原理和一般的雷達差不多。

    RadarCat內置了 Project Soil 晶元,這些晶元會發射特定的電磁波,當物體進入這些波的範圍時,內置感測器可以從物體發射的特定的能量圖案中獲取物體的數據,例如形狀,尺寸,材料等等,再結合深度學習演算法識別出特定的物體。

    而且把 RadarCat 和智能設備結合起來,還能開發出很多好玩的東西。。

    比如想知道現在幾點了??

    手機放在手背上就可以直接顯示時間。。

    肚子餓了怎麼破??

    放在肚子上馬上打開外賣App。。

    要出門了。

    往大腿上一放,谷歌地圖就默默打開了。。

    天冷了趕緊戴上手套。

    手機也立即轉變為手套模式。。

    恩,當然,這些都是要我們提前關聯好的。。

    說了這麼多,RadarCat到底有什麼實際的用處呢。

    最簡單的,垃圾分類回收。。

    幫助盲人識別物體。。

    商店裡快速識別商品類型。。

    未來的使用場景遠比我們想像的要多。。

    不過,目前的物體識別準確率還有待提高,還需要不斷的進行學習,而且對很多的混合物體識別率較低,比如鋁合金外殼識別為鋁。

    看到沒有,我們一直幻想的甚至連想都不敢想的東西,谷歌正在一步步幫我們實現,就是不知道我們什麼時候可以翻過那道牆。。

    來源:屎塔克工業(ID:stk404),作者:托尼


    谷歌上馬神經網路百名PhD人工處理數據

    搜索「世界上最快的鳥是什麼?」谷歌會告訴你:「游隼。根據 YouTube,游隼被記錄下最高 389 km/h 的時速。」這的確是正確答案,但它並非來自於谷歌的資料庫。當你輸入這個問題的時候,谷歌搜索引擎找出了一個描述世界上五種最快鳥兒的 Youtube 視頻。然後它只把最快的「一種」鳥兒的信息提取出來,不提及另外四種。

    這是谷歌搜索最新的技術進展。為了回答這些問題,谷歌需要藉助深度神經網路。作為 AI 技術之一,它不僅正在重塑谷歌搜索引擎,還在革新谷歌全套人工智慧服務。其它互聯網巨頭當然也受到波及,例如 Facebook 和微軟。

    深度神經網路是一種模式識別系統。它能通過分析海量數據,學習如何處理特定任務。這個例子中,它學會了怎麼在網路上的長篇文字中找出相關的一句或一段話,然後提取其中的要點呈現給你。

    移動端谷歌搜索剛剛上線這種「句子壓縮演算法」(sentence compression algorithms)。這個對人類來說很簡單,但對傳統的機器來說很難的任務,終於能被 AI 系統完成。這說明,深度學習正在促進自然語言理解這門藝術(理解並回應人類語言)的發展。

    谷歌研發產品經理 David Orr 說:「對於「句子壓縮」,你不得不使用神經網路演算法,因為這是目前我們發現的唯一方法。」

    為了訓練神經網路演算法,谷歌在全世界聘用了約百名語言學博士處理數據,對它們人工篩選。事實上,谷歌的系統是從人類那裡學習,怎麼在大段文字中提取有用信息。而這過程需要一遍遍地重複——這是深度學習一個很大的限制。僱傭大批語言學家不停地篩選數據既麻煩又極其昂貴,但短期內谷歌沒有別的辦法。

    「黃金數據」和「白銀數據」

    谷歌也使用過期的新聞來訓練 AI 問答系統。這使 AI 逐漸理解,新聞標題是如何對文章主體進行歸納的。但這並不意味著谷歌不需要成批語言學家了。他們不僅示範句子壓縮,還要對語句的不同部分做標記,以幫助神經網路理解人類語言是如何工作的。David Orr 把谷歌語言學家團隊處理的數據稱為「黃金數據」,過期新聞則是「白銀數據」。「白銀數據」作用不小,因為它的體量很大。但價值最大的還是「黃金數據」,它們是 AI 訓練的核心。語言學家團隊的負責人 Linne Ha 透露,在可見的將來,語言學家隊伍仍會繼續擴大。

    這類需要人工輔助的 AI 學習便是「監督學習」(supervised learning),目前,神經網路都是這麼運作的。有時候公司會把這個業務進行眾包,有時候它會自發地進行。比方說,全世界的網民已經為數百萬的貓咪照片添加了「貓咪」標籤,這會讓神經網路學習識別貓咪變得很簡單——訓練數據已經處理好了。但很多情況下,研究人員們別無選擇,只能自己一次次為數據添加標籤。

    深度學習初創公司Skymind 的創始人 Chris Nicholson 認為,長遠來看,人工標註數據是不可行的。他說:「將來一定不會是這樣。這是極度枯燥的活兒。我想不出比這更無聊的 PhD 工作了。」

    監督學習的缺陷遠不止如此:除非谷歌聘請所有語言的語言學家,否則這個系統無法在其他語言中運轉。現在,語言學家團隊的工作橫跨了 20 至 30 種語言。谷歌必須在將來的某一天,採取更自動化的 AI 訓練方式,即「無監督學習」(unsupervised learning)。

    到了那時,機器將能夠從未經人工標註的數據中學習。互聯網上海量的數字信息可以被直接用於神經網路學習。 Google、Facebook 和 OpenAI這樣的巨頭們已經開始這個領域的研究,但它的實際應用仍然非常遙遠。現在,AI 學習仍然需要幕後的大批語言學家隊伍。

    (來源:cnbeta網站,viawired)


    推薦閱讀:

    TAG:計算機 | 編程 | 學習 | 物體識別 | 失明 | 翻譯 | 自我 | 神經 | 機器翻譯 | 計算 | 系統 | 深度學習 | 深度 | 前沿 | 機器 | 谷歌 | 實現 |