人工智慧在電視人機交互中的應用

01-27

註：原文刊載於廣電總局的《有線電視技術》2017年11月刊，真沒想到。

摘要

無論是傳統電視還是智能電視，要解決的問題都是一樣的，即"如何讓用戶方便地獲取內容"。這裡有兩個關鍵點：「方便」和「內容」。在方便性上，傳統電視和互聯網電視差不多，都是基於遙控器人機交互；「內容」是傳統電視和互聯網電視最大的不同點，這個無需贅述。而人工智慧技術的長足發展，正在這兩個關鍵點上都大大提升了用戶使用體驗。

關鍵詞

人工智慧人機交互深度學習遠場語音 NLP 自然語言處理 ASR 語音識別

正文

「人工智慧（AI）」的概念1956年就已經出現了，但是受限於當時計算機的運算能力和演算法理論，並沒有應用於實際生活，了解的人自然不多。隨著GPU能力和深度學習理論的發展，人工智慧技術終於從實驗室理論進入到產品化階段，在各個領域開始突飛猛進。互聯網電視就是其中之一。

在討論電視應用人工智慧技術之前，需要釐清一些基本概念：所謂人工智慧是指人造機器表現出來的智能。這種智能可能模擬人的思考，也可能完全異於人，目前階段研究的核心主要還是「像人一樣自我學習」。機器學習是人工智慧的一個分支，深度學習又是機器學習的一個分支。完全異於人思考方式的研究，還是個天馬行空的哲學問題。

無論是傳統電視還是互聯網電視，要解決的問題都是一樣的，即"如何讓用戶方便地獲取內容"。這裡有兩個關鍵點：「方便」和「內容」。在方便這點上，傳統電視和互聯網電視差不多，都是基於遙控器人機交互；「內容」是傳統電視和互聯網電視最大的不同點，這個無需贅述。而人工智慧技術的長足發展，在這兩個關鍵點上都大大提升了用戶體驗。

先說方便。

由於人工智慧技術在自然語言處理（NLP）領域已經能夠達到90%的意圖識別率，所以直接使用自然語言控制電視獲取內容成為可能。這裡要強調的是「自然語言」，類似「給我來點跟《教父》一樣水準的歐洲黑幫電影」這樣的語言才是自然語言，而不是某些品牌廠商經常使用的「音量增加百分之二十」這樣的「機器語言」。對自然語言的理解和反饋是衡量一台電視機人工智慧水平的關鍵指標之一。

前幾年用語音遙控的電視並不能叫做人工智慧電視，最主要的原因就是只能識別固定的指令，而人工智慧電視不僅能夠理解自然語言，而且能夠聯機自我學習，舉一反三理解更多用戶的意圖，越用越準確。

人類在對話過程中，會自動帶著上下文。比如用戶在第一次對話中問：「有什麼好看的電影」，接下來他可能會問「不要好萊塢的」或者「只看今年的」，這種對話方式都是基於上下文的對話，我們叫做多輪對話。是否支持多輪對話也是衡量一台電視人工智慧水平的關鍵指標。

除了語義理解，方便性還體現在遠場收聲能力。它可以讓用戶不再需要拿著遙控器「按住說話」，而是在客廳的任意位置呼喚電視和它對話。典型的場景是：「暴風大耳朵，最近有什麼好看的片子推薦？」、「魚香肉絲怎麼做？」、「明早七點提醒我去機場」。

麥克風陣列的兩種主要布局

遠場收聲是通過麥克風陣列實現的，麥克風陣列以前一直是實驗室的研究對象，直到亞馬遜推出Echo智能音箱，終於實現了規模產品化。麥克風陣列最少需要兩顆麥克風，目前市面上有4Mic、6Mic甚至8Mic方案。陣列可以從背景噪音中感知用戶說話的特殊波形，通過波束成形技術準確地向用戶所在位置的方向定向收聲，忽略其他方向的雜音。廠商會根據設備的特性選擇不同的麥克風陣列，一般來說電視用的是線性麥克風，智能音箱採用的是環形麥克風。

筆者一直關注亞馬遜Echo的發展，在實際體驗過程中發現，純粹的語音交互目前還存在比較大的缺陷，反而是把遠場語音應用於電視後體驗會更好。舉個例子，用戶面對一個完全沒有顯示的智能音箱，基本上不知道該怎麼說才能操作；而面對有大屏的電視，用戶的緊張感會減輕很多，因為屏幕時時刻刻在提醒用戶當前可以說什麼樣的話來操作電視。谷歌把這種交互方式叫做「視覺反饋」，並把這種反饋交互模式應用於最新的今年十月份剛發布的「Google Assistant for Android TV」系統，目前暴風AI電視的交互也是類似的模式。與此同時，亞馬遜也意識到這個問題，並很快推出了帶有屏幕的「Echo Show」作為補充。

暴風AI電視的視覺反饋提示

目前最新的技術已經不僅能夠識別人聲，而且能夠區分不同人的聲紋，實現更加高級的操作，比如購物、支付和個性化推薦。國外的亞馬遜和谷歌，國內的訊飛、若琪都擁有該項技術。

自然語言理解能力和遠場語音處理能力最終會讓電視機用戶擺脫遙控器，在人機交互上產生巨大的飛躍，這種飛躍不亞於當年蘋果推出沒有鍵盤只有觸摸屏的iPhone手機。

再說內容。

除了自然語言理解，人工智慧在個性化內容推薦上的應用其實更廣泛。AI可以從大量用戶對話和用戶行為中抽象整理出用戶的「話外音」，了解用戶的喜好習慣，然後根據這些特徵主動推薦用戶可能喜歡的內容給他。有時候，系統會推薦給某個用戶從來沒有接觸過的的內容類型，用戶會驚呼「原來這個這麼好看」，他可能自己都沒有意識到這種內容會對自己的胃口。這種智能推薦已經在互聯網產品中大量應用，典型的就是今日頭條。

傳統的個性化內容推薦主要是基於標籤體系。首先運營人員要對所有的內容「打標籤」，比如「恐怖」、「熱血」、「二次元」、「都市」等等，工作量極其巨大，而且準確與否完全依賴於運營人員的水平；然後系統再根據用戶行為對用戶進行畫像，抽取標籤進行匹配。這個過程中誕生了各種專業的推薦演算法，技術人員隨時調整各項參數優化演算法，提高打開率。

基於AI的個性化推薦系統和傳統推薦系統有區別也有聯繫，區別最大的地方就是標籤體系。AI推薦系統里的「標籤」實際上是系統自動從內容和行為日誌等記錄里自動提取的，不需要運營人員的參與。例如從電影的元數據（主演導演簡介等）里分詞提取屬性標籤，從用戶的微博、豆瓣評論里分詞提取用戶的屬性標籤，然後依託GPU晶元進行大規模的矩陣運算，把高維度的向量數據逐步降維，最後簡化到三維空間，根據三維空間里的聚集情況給出推薦。原理類似於傳統推薦系統里的「協同過濾」。簡單講，就是假設一個人喜歡某個電影，那麼他的好朋友也有可能喜歡那個電影。

「千人千面」的個性化推薦反過來又推進了電視界面的變化。

傳統電視用「節目排播表」概念來編製頻道，用戶愛看不看錯過了就等下次；互聯網電視則完全基於點播模式，海量內容給你隨便看自己找不到別怪我；基於AI的智能電視則是把傳統的「人找內容」變成了「內容找人」，AI把你可能喜歡的菜端到你面前，先嘗後買。「嘗」就是給用戶預覽完整影片中的精彩橋段，用短片引導用戶看長片，降低了用戶的選擇難度節省了用戶的時間。請注意，精彩橋段可不僅僅是電影的宣傳VCR，如何挑選橋段也是一門學問，可以另起一篇了。

暴風AI電視的信息流主界面

更大的可能性。

人工智慧在電視應用的場景不僅僅是人機交互和影視內容推薦，它可以用來做任何內容服務的推薦。前面講到使用遠場語音改變了電視的人機交互模式，所以電視界面不再受傳統電視的樹狀菜單結構束縛，可以容納更多的內容服務，並且用戶可以直達服務。

具備人工智慧特點的電視，典型的使用方法是這樣的：

「幫我找個八十年代的經典文藝片看看」；
「隨便放點周杰倫的歌」；
「再買點上次買過的那種三元牛奶」，「對」，「再買兩盒」；
「去大鴨梨怎麼走」，「對，就是最近的那家」；
「半小時後提醒我關火」；
「晚安（關閉家裡的智能電器設備，並且讓電視機休眠）」。

可以看到，應用人工智慧技術的電視機已經大大超越了傳統電視機的使用方法和使用範圍。電視機可以幫用戶挑選內容，挑選服務，幫用戶控制智能家電，提醒用戶備忘，甚至幫用戶下單購買日常用品等等。上述這些不是設想的場景，而是已經成為現實的場景。

電視還是電視，但電視機已經早已不是電視機，它已成為家庭助手的一個大屏終端。而這個「家庭助手」的大腦，就是人工智慧。