Siri 屬於語音識別還是人工智慧？

01-03

語音識別（Speech Recognition）是自然語言處理（Natural Language Processing）的一部分；而後者又是人工智慧的一部分。所以上面的是個偽問題。

喬布斯在 D8 訪談中被問及蘋果收購 Siri 的原因是否是想與谷歌競爭搜索業務時答曰：「他們（指 Siri）不是搞搜索的，他們是搞人工智慧的。」—— 如果你一定要個答案的話。

Siri是語音識別和語義識別的結合，這兩個都算是人工智慧的範疇，但是是兩個不同的領域。語音識別是把聲音信號轉化為文字，語義識別其實是試圖理解這些轉化好的文字。

Siri和傳統的語音識別產品區別在於，一般語音識別產品，可以識別「現在幾點」這樣的問句，作出響應。但是這個問法必須是固定的，用其他的問法，他們就無法作出響應。比如你問，「現在很晚了么」，一般語音識別產品是不理解你要做啥的。而Siri可以告訴你，現在是晚上9點有點晚。

回答這個問題首先應該說明是在什麼層次上進行討論，是廣義的概念上呢，還是現實中研究情況。

Siri這樣的語音助手的學術名稱應該是口語對話系統，即Spoken Dialogue System，它通常應該包含五個部分：進行用戶輸入的語音到文字轉換的語音識別器、對識別器輸出的文本進行理解的語義解碼器、進行對話應答的對話管理系統，以及將答案轉換成文本的信息生成器、最終合成機器語音的語音合成系統。通常語音識別算作模式識別，語音合成則是語音識別的逆過程，而語言理解和對話管應該屬於自然語言理解。

從純粹的概念上來說，提問中提到的語音識別和人工智慧並不是並列關係。廣義上講模式識別或自然語言理解等都是賦予機器人類智慧的工作，都應該屬於人工智慧的範疇。現實來說，這些領域的研究人員在大學中通常可以屬於相同的機構並且有各種合作，甚至有時也可以互相發表論文到對方的學術會議。但一個基本的事實是它們屬於是不同的學術圈。比如語音識別和合成也許電子工程背景的人員比較多，但自然語言理解和人工智慧里計算機專業的人更常見。這大概是由兩個圈子主要研究的問題的不同特點導致的。

對於現實中的研究情況，口語對話系統中很多關鍵研究都是由語音識別相關領域做出的，同時對話系統在很多重要機構也都是由語音識別相關的人員組成的，比如在前貝爾實驗室、IBM、麻省理工學院、劍橋大學都是如此。這可能是因為語音識別和合成的門檻通常比較高，並且口語對話系統只需要應答而無需思考。人工智慧社群的研究人員似乎通常會對邏輯、思考等問題更加感興趣。但是當智能度更高的時候，系統往往會被更傾向於認為與人工智慧社群更大的關係，比如前些年名噪一時的IBM沃森系統。

siri是語音識別和語義識別的結合。簡單說來就是聽見、聽懂，然後做出回應。

語音識別是命令而非智能，是人對機器發出命令，機器匹配完成後，做出回應。你讓機器往西，機器絕對不會往東，而你如果想讓機器往西，你只能發出往西的命令。

語音識別+語義識別是對話式的。你如果想讓機器往西，你可以說，「跟著太陽落下的方向」。這就是siri

我推測是這樣的：

語音識別 - 》語義識別 -》自動匹配答案 -》無法匹配？ -》接印度呼叫中心人工解答。

Siri使用了語音識別技術，但不是它的核心技術。用喬布斯的話講，蘋果2億美金收購的是Siri的人工智慧技術

Siri, you』ll remember, is the company Apple picked up for a rumored $200 million in April of last year for, in Steve Jobs』 words, its 「Artificial Intelligence」, not search or speech recognition.

Siri的co-founder Norman Winarsky說Nuance語音識別其實並非想像中那麼重要，他們用過Vlingo和Nuance。如果將來出現更好的語音識別引擎，他們也可以很容易切換。

9to5Mac: How important is Nuance speech recognition to the Siri technology?

Norm: It is a lot less important than you』d probably think. When we first built Siri, we use Vlingo for speech recognition and as such, at the time of purchase the speech recognition component is modular. Theoretically, if a better speech recognition comes along (or Apple buys one), they could likely replace Nuance without too much trouble. That being said, Nuance has far and away the most IP in speech synthesis technologies in the industry. We should know, SRI launched Nuance as one of our incubated companies in 1995 and it IPO』d in 2000.

Link：http://9to5mac.com/2011/10/03/co-founder-of-siri-assistant-is-a-world-changing-event-interview/

我覺得是人工智慧的雛形，太震撼了。

語音識別屬於AI範疇，有些人會將其劃入NLP領域。我認為ASR的目標是做感知，也就是它要知道你說了什麼。但只是感知，你肯定還不滿足，需要知道說的到底什麼意思，也就是做understanding或者說是語義理解。siri其實做了識別和理解，但效果你可以自己體驗。

今天微信上冒出了反覆問Siri「你有朋友嗎」，得到驚人回答的截圖。就特別Gu歌了一下。

根據維基百科Siri詞條顯示，摘錄如下：

Siri(Speech Interpretation and Recognition Interface)是一款內置在蘋果iOS系統中的人工智慧助理軟體。此軟體使用自然語言處理技術，用戶可以使用自然的對話與手機進行交互，完成搜索數據、查詢天氣、設置手機日曆、設置鬧鈴等許多服務。[2]

Siri公司創建於2007年，起初Siri是iOS中的一個應用，並同時在黑莓平台與Android平台提供Siri軟體。蘋果公司在2010年4月28日完成了對Siri公司的收購，重新開發後只允許Siri在iOS中運行。

Siri起初是美國國防部其下DARPA的研究項目，定位為國家級的虛擬語音助理，原本可能變成Android智能手機的默認功能，不過最後在Apple的介入之下賣給蘋果公司，Siri公司創建於2007年，創始人有Dag Kittlaus（任CEO），Adam Cheyer（任高級工程副總裁），以及Tom Gruber（任CECTO和高級設計副總裁）；SRI國際公司的Norman Winarsky也參與了Siri公司的成立。在2008年10月13日，Siri公司宣布它的由Menlo Ventures和Morgenthaler Ventures主導的第一輪融資已經達到了850萬美元。[3]

蘋果公司在2010年4月28日完成了對Siri公司的收購。

以上內容來自：https://zh.wikipedia.org/wiki/Siri

所以，Siri應該屬於人工智慧範疇。

Siri是ASR（automatic speech recognition，自動語音識別）+NLP（nature language processing，自然語言處理）。語音識別和自然語言理解都是Siri中必不可少的部分。

語音識別實現的是從語音到文字的轉換。語音對於電腦來說，就是對聲音每秒n次採樣後的一組二進位流，電腦無法理解其含義。只有將語音識別成文字，電腦才能進行後續的處理。

自然語言理解實現是文字的理解。比如電腦收到文本「今天天氣怎樣」，理解後會返回「今天下午下雨」類似的結果。通常最簡單的做法是收集大批的人工問答集合。比如抓取知乎、百度知道等人工回答的問答集，並進行處理。對於用戶輸入的問題，則會在這些問答集里的問題里進行搜索匹配，找到相關度最高的，將問題的答案返回給用戶。

1.「語音識別」

Q：今天的天氣是？

A：今天最高溫度XXXX。。。

2.「人工智慧」

Q：今天的天氣是？

A：今天最高溫度XXXX。。。

Q：明天呢？

A：明天最高溫度XXXX。。。

簡單回答下語音識別和人工智慧的區別，可以隨時通過這個答案測試siri的智能化進程。

Siri直接發端於史上最大的人工智慧項目：五角大樓的CALO項目。CALO是「Cognitive Assistant that Learns and Organizes」的縮寫（學習、組織及認知助理），這個項目匯聚了全球人工智慧方面的頂尖科研人員。

你要分清幾個問題，語音識別屬於人工只能大類下的小類。所以語音識別是人工智慧

應該說Siri屬於人工智慧，而語音識別只是支撐Siri的一部分技術，舉個很簡單的例子，人一樣，每個人都有五官，而說話只是嘴巴的一部分功能。從另外一個角度來說其實Siri並不屬於真正的人工智慧，只是基於大數據進行梳理和分析然後給出一個結果。

目前可以說全部的類似Siri這樣的語音助手都是同樣的模式。只是做得好與不好而已。像科大訊飛的靈犀語音助手就偏實用工具類一點，而微軟的小冰就主打聊天了。Siri的優勢也是劣勢就是只能在蘋果上運行，甚至不能說一個軟體，只是一個插件，但也因此是深度紮根與蘋果手機上，功能更加強大。在功能上，安卓版的也就靈犀語音助手等偏工具類助手的才能與之一比。

在2011年10月iPhone 4S的發布會上，Siri是一大點亮。現在它早已不是用戶長按Home鍵，或發出「Hey, Siri」指令進行喚醒（這一功能本身也使用了機器學習，允許iPhone在不耗電的情況下了解周圍情況）這麼簡單了。Siri的智能整合進了Apple Brain，即便不發場時也在工作。

作為核心產品而言，Cue提到了四個組成：語音識別（理解你何時與它對話），自然語言理解（理解說話內容），執行（滿足查詢或請求）以及響應（產生回話）。「機器學習對所有這些都有重要影響。」
——轉自虎嗅網《 深度解密蘋果人工智慧：不止有Siri，iBrain已經在你iPhone之中》

毫無疑問，siri屬於人工智慧，而語音識別即人工智慧下的一個子集。

而siri不僅僅局限於語音識別這一個動作，個人理解應該像是條反射弧一樣，包括了識別（接收到一段聲音）、處理（解析出這段聲音中的命令/請求）、執行（根據所解析出的命令/請求要進行什麼動作）和反饋（將動作所得到的成果反饋給聲音的來源）四個動作。

語音助手，幫助並不智能

補充一下 SIRI 應該是 ASR + NLP + TTS .

ASR 和 TTS 是語音處理（識別，合成）， NLP 或者 NLU 是文本處理。

Siri 現在用的還是 Nuance 的技術，在蘋果收購siri 之前， siri 的語音部分 ASR 和 TTS

就是用的 Nuance 的技術。

理論上是人工智慧，語音識別只是一個實現手段。

siri是語音識別和語義識別的結合，語義識別就是人工智慧的範疇！人工智慧還包括更多的領域！