標籤:

如果要讓人聽懂動物的語言,中間的代溝到底該怎麼填平?

文|王伊詩

來源|智能相對論(aixdlun)

近日,有一個視頻在養寵圈中廣泛流傳,引無數養寵人士潸然淚下。視頻的主角是動物行為專家HeidiWright和一隻生命即將走到盡頭的導盲犬,HeidiWright以她的能力為媒介,將導盲犬的肢體動作和聲音翻譯成人語,幫助它和主人進行最後的交流。在HeidiWright的轉述中,導盲犬表示了無法繼續守護主人的惋惜,還不停地呼叫另一隻狗夥伴,讓它照顧好主人。

這段視頻在引發人們感動的同時,也讓許多人止不住地遺憾,很多家庭都養有寵物,這些寵物陪伴了主人十數年,早已經超越了傳統意義上寵物的範疇,成為了特殊的家庭成員。可是絕大部分人都無法像上文提及的主人那般幸運,能夠傾聽到狗狗的心聲,在這名「親人」辭世時也只能抱憾相送。

無數人曾設想過,是否有可能出現一種翻譯工具,能夠將寵物的語言轉換為人語呢?

人寵語言互譯並非偽命題,十年內或可「美夢成真「

美國資深動物行為專家康·斯洛波奇科夫(ConSlobodchikoff)教授稱,未來五至十年內,人類使用一種手機大小的裝置——寵物翻譯器,便能與動物進行「對話」。這位北亞利桑那大學的生物教授花了30年研究草原土撥鼠的行為,他用AI軟體記錄並分析草原土撥鼠的叫聲,將其翻譯成英語,發現這些草原上的小傢伙們「具有語言所有方面的複雜通信系統」。而目前,他正試圖籌集資金來開發貓和狗的語音翻譯設備。

在這條未知明暗的道路上探索的顯然不止他一人。天下熙熙皆為利來,天下攘攘皆為利往,其實「寵物翻譯器」的低配版早就被放上了淘寶,取得了可觀的銷量,賣家聲稱這個設備經實測翻譯準確率高達80%。縱覽評論,「好玩」、「有意思」、「靈氣」之類的好評不在少數,從中我們也可以窺知消費者對於寵物翻譯器的需求與肯定。

4S營銷理論下,僅做到趣味性的滿足顯然不夠,在寵物翻譯這塊才剛剛開掘的沃土已吸引了無數「賞金獵人」的眼光。如果按斯洛波奇科夫教授所說的,這項技術能在十年內成為現實,小範圍滿足的是人與寵物的交流溝通,大範圍可能是人類一統動物世界的溫和策略與夢想。

自動語音識別技術和語音翻譯技術助力,寵物情緒傳達不再是鏡中花、水中月

低配版寵物翻譯器運用的技術原理就是對狗狗的叫聲、動作等生物信號進行採樣,對獲取的數據進行頻譜分析,對姿勢動作DSP運算數字化處理,把得到的翻譯語言以中文形式語音播報出來,但是由於採樣的範圍和機器內存等的局限性,這種低配寵物翻譯器在翻譯的準確度和豐富性方面尚有待提高。

相較之下,為實現人狗溝通而設計的「NoMoreWoof」耳機要更勝一籌。

過去幾年,AI領域的進步帶來了自動語音識別技術和語音翻譯技術的顯著改進,計算機演算法已經可以通過對大量數據進行的學習和訓練來解釋語言,而不是通過一組死板規則進行預編程。「NoMoreWoof「是由北歐發明與發現協會(NCID)開發的,應用的是三個不同技術領域的最新技術的組合,即腦電圖(EEG)感測、微計算和專用腦-機介面(BCI)軟體,主要由腦電圖耳機、RaspberryPi處理器和一款便攜音箱組成。這些感測器是腦電圖記錄器,可以降低讀數,減少離子電流在狗腦中的電壓波動。然後由微型計算機拾取波動,在這種情況下形成一個覆盆子pi,並對它們作出解釋。

例如,大腦中有一種特定的電信號來定義疲勞感,還有一些最容易被發現的神經模式:「我餓了」,「我累了」,「我很好奇那是誰?」,「我想尿尿」……耳機中的感測器會捕捉這種特殊的電信號,並將它們轉化為人們能夠聽懂的語言。

再結合基礎的自動語音識別技術和語音翻譯技術,計算機演算法可以大致地分辨出寵物的情緒,這是短時間內寵物語言翻譯能達到的制高點,至於要通過寵物翻譯器來了解動物夥伴們真正的內心世界,還期待人類進一步的大動作。

精確翻譯之路仍山高水遠,中間的代溝需要這些填平

需要指出的是,動物的大腦並不如人類的大腦複雜,人腦的活動通常有一個明確的目標導向,動物的大腦卻不一定,人的各種語言之間的轉換也具有相對窄範圍的對應關係,而動物的語言與人類的語言則對應範圍很寬,比如,狗會發出急促的叫聲,可能是因為想要向主人乞食,也可能是因為警惕陌生人,還可能是對主人不陪自己玩的責怪。如果它想表達的是這一種,而AI的翻譯器卻傳達為另一種,那麼就容易將人和寵物之間的溝通引入「歧途」,從而完全喪失了寵語翻譯的意義了。

那麼有沒有可能通過AI實現完全精準的寵物語言翻譯呢?任重而道遠。通過自動語音識別技術和語音翻譯技術,計算機演算法可以大致地分辨出寵物的情緒,但要明確更深層次的寵物肢體動作和叫聲的內在意圖,AI還需要一場「扭轉乾坤」的大革命。在這方面,我們可以聯想AI在同聲傳譯上的表現,之前,很多媒體搞起了「Ai會取代哪些工作崗位」的預測,筆譯、口譯在許多預測中被認為被取代率高居榜首,這並非空穴來風,AI翻譯不可謂不是當今AI領域的一個熱點,搜狗,谷歌,Facebook,網易等都削尖了腦袋想要分一杯羹,卯足了勁兒想要成為這一領域的領頭羊,畢竟人工翻譯領域人工成本高居不下,如果能用AI解決高成本問題,無疑劫走其中大部分的紅利。

然而,就目前來看,AI翻譯並沒有完全取代人工翻譯。相比於對其他事物的了解,人更了解人自身,而針對人自身語言所進行的AI翻譯尚且前路未朗,AI又如何在寵物翻譯領域嶄露頭角呢?在智能相對論(微信id:aixdlun)看來,AI在寵物語言翻譯方面的應用,還需要填平這些「代溝」:

1.數據關,成風盡堊之技無的放矢。要明確動物語言所表達的具體意義,需要先對動物的叫聲和即時腦電波動進行完整的採樣比對,再在這些數據的基礎上建立資料庫。而這兩種數據都存在著廣泛性和多樣性,以犬類為例,不同的犬種聲帶粗細寬窄各不相同,針對同一情景發出的叫聲分貝高低和尖細情況也不同,而刺激犬類發出叫聲的場景又是難以窮盡的,單單收集犬類的聲音樣本就是一個無比巨大的工程了,資料庫自然也難以完善。

2.技術關,空手搏鬥難制勝。一個AI翻譯產品做到翻譯精確至少需要攻破幾個難題:形式端,拍譯要攻克圖像識別,同聲翻譯要攻克語音識別:內容端,攻克文本語言分析、大數據。而AI還沒有發展到能夠極為精確地處理這些問題的階段,機器缺乏對視覺場景、聽覺場景、自然語言處理的常識判斷。

如搜狗搜索在2017年6月的分享會上發布了創新產品搜狗翻譯APP,應用了基於生物學習的神經網路機器翻譯(NMT)系統,將翻譯精確度提升到一個前所未有的高水準,然而在翻譯效果的「信達雅」上,仍然只做到了「信」的層面,對語言背後的幽默、情感等豐富含義的解讀離人們所期待的水準還有些距離。

3.語義關,語料積累、場景收集和副語言與文化背景成痛癢之地。AI翻譯在文本或語言的寓意分析方面還強差人意。與人類語言相比,動物語言都是即時信號,信息內容全部關於當下,或示威,或示警,或示愛……從中看不到用語言來激起對過去的聯想的跡象,並且單個個體能發出的聲音形式太單一了,蘊含在其中的豐富信息難以明確表達。

寵物翻譯的難點不僅在於聲音的收集,更在於聲音背後具體含義的對應。這種對應是寬範圍的,難以精確的,機器缺乏對視覺場景、聽覺場景、自然語言處理的常識判斷,無法精確理解語音所表達的內涵,甚至在這個方面還比不上人類對動物語言的理解,人可以根據生活經驗來理解動物語言,比如看到狗狗沖著陌生人吠叫,人們可以推測它是在防備這個陌生人,而機器可能就沒辦法很好地理解這個畫面,從而做出錯誤的判斷。

又比如,「好」這個字是日常交際的常用字,在百度漢語顯示有19種語義,這些語義是結合具體場景來體現的,當偶遇熟人時,「好」的意思是問好;當別人徵求意見時,「好」用來表示同意;當人們商討時,又可以用「好」來表示反問……可見場景對於語義具有至關重要的影響,機器的正確理解場景的這件事上還需要加油,從而提高語義翻譯上的高精確性。

4.「歷史包袱」難抖掉,AI難以跟上生命體的學習進程。狗的叫聲在一定歷史時期並不是一成不變的,狗憑藉自身的靈性以及主人的後天馴養,具備有學習能力,例如狗類中智商排名第一的邊境牧羊犬智力水平已經相當於6—8歲的小孩,經過學習,在放牧時它會用不同的叫聲來驅使羊群,控制羊群走向。還有一些寵物狗,甚至會在人類的刻意訓練下發出類似「媽媽」的叫聲,寵物語言在日新月異的變化,計算機卻很難抖掉語言的「歷史包袱」,這些也造成了AI寵物翻譯的困境。

動物語言和人語之間的代溝是客觀存在的,AI所能做的,只能是不斷改進自身的功能,用科學手段完善資料庫、內容、語料和場景,形式和內容雙管齊下,才能將這條橫亘在動物語言和人語之間的代溝填平,在堅實的地基上建立起實現人和動物「有效溝通」的「巴別塔」。

智能相對論(微信id:aixdlun):深挖人工智慧這口井,評出鹹淡,講出黑白,道出深淺。重點關注領域:AI+醫療、機器人、智能駕駛、AI+硬體、物聯網、AI+金融、AI+安全、AR/VR、開發者以及背後的晶元、演算法、人機交互等。


推薦閱讀:

系列教程:選擇準備安裝的 TensorFlow 類型
NIPS風波|獲獎者登台開炮:ML是鍊金術,大神LeCun強硬回懟
從電影《Ex Mechina》談後人工智慧
讀paper,帶你看工業界怎麼玩ML
人工智慧又放大招!亞馬遜的AI時裝設計師,究竟會不會搶走人類飯碗

TAG:人工智能 |