Siri 通過語音識別提供智能助手服務,這樣一個產品的技術挑戰在哪裡?
語音識別技術已經發展了那麼多年,為什麼 Siri 所做的事情仍被視為一個大革新?它算是真正的人工智慧嗎?
siri的核心技術是自然語言人機交互。語音識別部分採用別家公司的技術。
語音識別=我知道你說什麼
siri個人助理=我理解你說什麼
更新
SIRI最初是SRI公司內部的一個研究項目,並且有美國軍方DARPA的科研資金支持,後來獨立出來商業化。估計最初目的是機器人和人的交互介面。結合了一系列的技術包括:語音識別,自然語言處理和語義分析,情景分析和服務代理。
SIRI個人虛擬助理的功能就是從你說的話中,分析出你的指示,然後分發到它對應的幾十種代理功能中,包括定飯店座位,訂機票,代發郵件,查新聞等。
根據WSJ去年的新聞中提到的SIRI的使用範例,你對著iphone說,「告訴我老婆,我會遲到20分鐘」 Siri會自動搜索用戶的社會網路地址簿和其他程序,發現標記「老婆」的聯繫人,將你說的內容「我會遲到20分鐘」發一份簡訊到她的電話。
說到難度,單從自然語言分析來說不大,起碼google,微軟等公司肯定有這些技術,國內的科研機構也可以做到。SIRI技術優越之處可能是集合時間地點等情景分析,但不會很神奇。至於語音識別部分,用了最好的公司的識別引擎也沒問題。服務代理就只是開發層面的問題。
SIRI的出色之處應該是各項技術的集成。 和iphone的卓越是一樣的,各個模塊如何最好的揉合在一起。it just works!語音信號的處理其實與無線電信號處理有很多相似的地方。只不過一個是對聲波模擬信號的處理,一個是對無線電模擬信號的處理。
我們先根據信號處理里的通常過程把語音識別里的各個環節給一個劃分:信源是人體的聲帶,信道包括人體的口腔,手機話筒,然後就是整個網路再到接聽者的話筒,信宿就是接聽者的耳朵)。
參考當前無線電信號處理的過程,可以估計語音處理過程的一個基礎流程:
1、第一模數轉換,這一點其實處理挑戰在於ADC的採樣速率與DSP的處理能力。這兩點決定了模擬信號轉變成數字信號後的處理位寬。在無線通信處理里用IBW(instant bandwidth)能力來表徵。對於語音信號來講,如果語音信號不失真,要求滿足奈奎斯特採樣定律,一般的無線通信系統里的語音編碼速率最高就是12.2k,這個要求並不高,現在的DSP能力應該很容易處理。
2、解調,就是如果把信號經過信道傳播後發生變形的信號再從信道中檢測出來。這一點對於無線通信來講其實相對比較成熟了。而對於語音通信,這裡的信道由於包含人體的口腔,而人體口腔構造差異導致的信道差異應該是語音識別最大的挑戰。熟悉信號處理的童鞋應該清楚,如果沒有信道特徵估計,那麼經過信道歪曲的信號很難被正確解調。而語音識別的信道特徵相比無線電信號的信道特性更加多樣化,因此包含人體口腔的信道估計應該是語音識別里最大的挑戰。
3、編解碼,這個應該不是瓶頸,香農老大已經給我們分析的很清楚了,正確的解碼後,就可以把語音轉換為文本。
4、雜訊抑制,就是信源產生信號後,混雜了環境雜訊。對於環境雜訊的處理,其實MOTO有一種麗聲技術,在語音通話時,對環境雜訊的抑制處理的很好。這種雜訊他的特徵相對容易檢測,只要有相應的晶元能夠及時檢測出雜訊特徵,就可以相對容易的抑制掉。
5、另外,語音識別在語義上的處理,可能相比解調更加棘手。這個應該是搜索引擎共同面臨的問題。
1.關於語音識別,我覺得不是技術的細節問題,從學術和工業的區別的角度來看待這個問題也許更能說明Siri的革新意義。
不錯,語音識別這個學術界已經做了很多年了,貌似之前開復老師就是做這個成名的,但是學術歸學術,我們周圍有多少產品能聽懂人類的語言?恐怕用不了一個手都能數完,而和我們接觸達到手機這種密切程度並且功能如此複雜的恐怕是史無前例了。
而Siri的意義就在於此,就像微軟的windows一樣,雖然之前unix已經出了很久,操作系統在技術上也已經研究了很久,但是windows才是把計算機普及到每一個家庭的功臣,而Siri也想承擔這樣的角色。
2.第二點是自然語言處理領域的語義識別了,這個技術說難也難,說簡單也簡單,難的意思是理解各種話里的意思,區分歧義,簡單的是圍繞著手機里的應用去理解語言,顯然蘋果重點是後者,所以說技術上的創新也不明顯。
從學術到產品的路其實很遙遠,大部分都連邊都看不到,因為產品面臨的是更複雜的應用環境和更「懶惰」「笨」的用戶。研發高性能的語音識別技術的確不容易。但是,Siri產品開發的核心工作並非語音識別(這部分應當是Nuance的活兒),而是構建一個智能助理系統。
根據我使用Siri App(iPhone4S Siri的前身)的經驗,我覺得開發此類產品的主要挑戰是用戶期望值相當高,除了語音識別外,還需要解決一系列的難題:
- 需要根據用戶當前所處環境(Context)準確地理解用戶意圖
- 具備一定的人類語言對話能力
- 能夠按照當前環境和用戶偏好生成最優的任務計劃並配置資源(時間、成本)
- 能夠根據用戶意圖生成具體任務指令並執行
- 能夠協助用戶處理人和人之間的溝通、交流
- 具備自主學習能力。能夠通過分析用戶反饋,不斷提高系統智能水平
- 作為一個手機產品,還要面對一些技術限制(有限的計算能力、不穩定的網路環境、環境噪音等等)
UPDATE: 根據目前看到的Siri使用視頻,Siri在對話、Context Awareness、計劃和學習方面還在初級階段,還有很大的提升空間。
介紹一點Siri背景資料:Siri是Apple於10年收購來的產品。其前身是SRI International領導的CALO項目。這個項目得到了DARPA的資助,CMU等研究機構也曾經參與。這個項目似乎沒有什麼大的理論貢獻,主要價值就是將各種相關技術集成起來。簡單來說,Siri是個語音識別+知識處理+應用介面+語音合成軟體,單論這每項技術,是沒有什麼神奇超前的,然而能把這些技術完美無縫整合起來做的如此智能,卻不是誰都可以做到的,直接拉開和其他語音命令類軟體的差距,你可以拋棄繁瑣的語法結構,甚至思維模式也可以混亂,Siri會結合上下文結構去理解,它還會從人類語言史的角度出發,利用人工智慧系統去分析,並在絕大多數情況下領會你的意思。而更加人性化的特點是,一旦你開始和Siri進入一段對話,它甚至能理解許多含義模糊或者引申的語義。而Voice Actions做不到這樣的事情,因為它只是一個聲控命令軟體,而並非人工智慧。語音識別不是革命性的。多年前,IBM 的語音識別軟體在 PC 上就有不錯的識別率了。基於語音識別,簡單的智能分析和系統功能的調用也不算革命性的。無論是Google的Voice Action,還是Vlingo 等獨立的公司都做的還不錯,但是,Siri 的智能程度更高。
Siri 並非這些已知技術的簡單組合。Siri也並非一個獨立的產品,一方面,它後台有強大的Wolfram|Alpha和Wikipedia 知識庫做支撐,另一方面,它還有一系列的自有的或第三方的應用:天氣,日曆,地址簿,郵件/簡訊,影訊,搜索引擎,問答。Apple他們可能花了大量的時間協調應用程序介面。Siri實際上扮演了中間人(Broker)的角色。這是一個難以扮演的角色,如何把天氣的問題交給天氣的應用而不是影訊的應用,如何把一個簡訊給簡訊而不是搜索引擎,並非一件易事而需要分辨使用者的真正意圖。這也是一個狠角色,一旦整個生態系統建成,應用和語音識別引擎都可以更換。所以儘管在這之後其他只能平台上也雨後春筍般的湧現出了一大堆所謂的xx版Siri,但無論從智能程度和易用性等各個方面和Siri的差距都可以用天上地下來形容。
我覺得最主要的還是用戶體驗做的不錯吧,學術上來說這種簡單的對話系統很多年了,當然技術上也是不錯的
個人覺得這個技術有這麼幾個技術挑戰:
1、降噪,我當年的N72也有語音識別,在嘈雜的情況下,我還沒說話,他都有反應了。。。
2、語音識別,如何準確識別所說的話,並作出相應的反應。
3、用戶體驗,就如同觸摸屏技術不是蘋果發明的,但是是蘋果讓觸摸成為一種主流操作方式,技術和生活還是不能脫離太遠啊~
可以做語音識別,技術很容易達到,那語義語法結構很重要,要讓機器知道你說的什麼,該怎麼回答,需要設計語言模型,那後面呢,不需要強大的聲學模型嗎。
最大瓶頸應該還是在語義理解跟人工智慧上面,目前還沒有一個完整的思路
現在的智能語音助手,功能大多大同小異,蘋果的siri,安卓的靈犀語音助手,PC的cortana等等,在技術上其實差距不是很大。說到底,語音助手是一種語音控制程序,能夠聽到你說話並且進行語音判斷,然後迅速作出回應,或者說聽你的指令幫你操控智能設備。簡而言之,你說啥它做啥,能幫你打電話、發簡訊、搜索內容、設置提醒等。這些基礎的事情都可以被語音助手(人工智慧)所取代。
但主要的技術挑戰其實還是在應用場景偏少,甚至有些場景是硬加上去的。想要實現質的突破還面臨過很多瓶頸。其次,語音助手發展面臨著語音識別率不足的問題。在真實地應用場景中有許多複雜的情況、環境噪音,用戶的語氣情緒都可能會大大降低語音助手的識別率。這兩點就是包括siri,靈犀語音助手等等在內的智能助手所必須克服的兩大技術挑戰。
一般應用,能聽到
siri,能聽懂
語音識別?人和人之間的溝通常常都出現障礙,何況人和機器,這不是聽不聽的清楚的問題,而是聽不聽得懂、聽懂之後怎麼回答的問題;簡單概括:語音識別、語義分析、第三方服務
推薦閱讀:
※什麼是語音分離技術?它有哪些最新進展?
※訊飛輸入法和搜狗輸入法哪個語音輸入更好使?
※在不久的將來五筆輸入法會不會退出輸入法界,畢竟身邊的人現在漸漸的改用了語音輸入?
※移動設備上的離線語音識別需要哪些技術支持,具體如何實現?
※詞尾輔音是否不利於語音識別?