Kinect 與 Siri，在技術上誰更勝一籌？

12-26

很好奇樓上是怎麼對比出來的，這問題簡直是：學游泳和學做飯哪個重要？

我自己是做Kinect開發的，Kinect不僅用於遊戲，在許多科研領域都有特殊用途，比如這個：增強現實—在線播放不酷炫嗎？基於Kinect的開發，以前用OpenNi，現在更有官方SDK，捕捉的數據是開放的，所有人只要願意，都可以拿它來做研究。所以Kinect並不是Xbox獨享，在PC上面有更廣闊的研究前景。
而大家最熟悉的Kinect的遊戲方面應用，主要是對所謂的對骨骼的識別，這都是處理數據的程序的功勞，並不是屬於Kinect的技術，前面有人說的「Kinect在狹窄空間找不到我」，只是因為你使用的處理捕捉數據的程序不夠強大，跟Kinect的核心技術無關啊。
最新的Kinect(Kinect for Xbox One)加入了心率捕捉，遠程的心率捕捉，不用緊貼肌膚的心率捕捉，原理是對每次心臟搏動造成的血液流動對肌膚顏色產生的微弱變化的捕捉，這種技術想一想真的不會起雞皮疙瘩嗎？
另外除了圖像之外誰說Kinect不捕捉聲音了？Kinect當然可以捕捉聲音了，我家的電腦沒有話筒就是一直用Kinect的啊，再說Xbox不是可以通過聲控操作的嗎？所以說如果Kinect後台如果有足夠強大的聲音分析程序一樣可以做Siri做的事情啊。

而Siri，對開發者而言沒有太多用途，偏嚮應用，更貼近普通人的生活。Siri的關注點跟Kinect完全不一樣，根本就不是捕捉聲音，而是對聲音數據去噪處理，模式識別，識別出指令之後的各種調用。二者完完全全就是兩個領域，真沒有什麼好比的。

總的來說做飯可以讓你的日常生活更美，但是游泳可以救你老婆或者你媽的命。

Siri的技術優勢主要集中在語音識別後應用雲計算來增加智能化，本身的技術壁壘並不是很高，全球有很多公司都有類似產品，只不過可能沒有Siri智能化程度這麼高，也可能是沒有蘋果喬布斯這麼大的影響力。
而Kinect的技術優勢要遠遠超過其它同類產品，雖然目前沒有智能化，不過未來發展空間更大。

所以Siri算不上劃時代，頂多是個領先技術。而Kinect才算得上真正的劃時代技術。

個人看法kinect技術複雜。siri至少可以讓人想到是如何實現的，但是kinect的一些技術我自己當時確實是被震驚了。
1.kinect 用的是一個攝像機一個紅外發射器。但是卻可以獲得空間的所有信息。也就是說那個紅外可以對空間內每一點進行測距，我反正想不到他是怎麼做到的。
2.kinect的語音識別在多個人說話的時候kinect可以識別出不同的聲音。
3.kinect的攝像頭和動作捕捉也不簡單，對動作很敏感，完全不會卡，再快的處理器也很難在那麼短的時間內把動作捕捉出來，而且據我同學說非常順暢，演算法的力量吧。。。
4.kinect很強很穩定，robocup，亞太機器人大賽很多人都把它當作模式識別的配件來用（現在基本成標準配置了都），如果大家會做我想也沒必要如此。
5.據說微軟為了kinect買了以色列的數個技術專利。

從技術上講，Kinect與Siri都屬於AI里的模式識別領域。所不同的是識別的對象差異。
Kinect的識別領域是圖像處理。這個圖像處理的模式識別研究在計算機誕生以來已經很有一段歷史了。
Siri的識別領域是語言識別。我讀書那會，從國內高校來看，做的這方面的應該沒有圖像識別那麼成熟。
從識別對象上來區分，Kinect的識別難度要小於Siri的識別難度。因為Kinect的識別對象集合貌似可以做到一個有限集，而Siri的識別對象集合徹底是一個無限集。所以Siri經常會出現「I don"t understand balabala」。

但是如果說Siri的難度遠遠大於Kinect，那也不恰當。因為Kinect與Siri的識別除了對象外，還有一個識別深度，以及識別環境的問題。這就好像，Kinect所識別的程度只是capaturereflect，而Siri嘗試把識別做到understandresponse。因為在Siri做到understandresponse之前，其實也做了capture這一步，而Kinect並沒有再往深的去識別用戶的動作。比如，如果Kinect能夠通過識別聾啞人的手語，然後進行understandresponse，那麼Kinect的技術難度就應該與Siri的不相上下了。

另外，還有一個識別環境預設的問題，對應在模式識別里的雜訊抑制（noise mitigation）。這一點上來講Kinect與Siri其實在一個大致相當的程度上。

產品角度，Kinect的產品應該不比Siri簡單。上邊的技術其實都是有很多paper在支撐。但是如果把這些技術落入產品，這個難度相信Kinect與Siri是不相上下的。特別是Kinect的流暢，Siri的特有幽默。。。

綜上所述，Siri的技術&>Kinect的技術，但是從產品角度 Kinect～Siri。

單就技術而言，Siri在市場上的競爭對手很多，比如bing的語音搜索結果也很不錯，只是它使用網頁返回結果而已。Siri在演算法，語料庫，語義分析等方面有領先的地方，但至少技術不是壁壘。而Kinect目前在市場上沒有對手，以Sony和任天堂的實力，都沒有相關產品，可想而知，技術壁壘是很高的。

不是一樣的東西，肯奶更像動作捕捉而生的，Siri是ai數字助理。肯奶的感測器器及api是技術優勢，siri則是語意分析

kinect主要是模式識別技術，siri主要是信息綜合處理技術。著重點不一樣。再說了，技術永遠是為用戶服務，不要為了技術而技術。

kinect =圖像捕捉+模式識別
Siri = 語音識別+ 語義分析+ 數據匹配
從人工智慧內核的角度來說，Siri要更勝一籌，因為Kinect僅僅做到了識別，但沒有做到分析和理解。從未來的發展來說，kinect+Siri的結合會有更光明的前景。要想更深入的了解這個問題，不妨看看斯坦福大學10月11日開始的AI人工智慧免費公開課。

如果說kinect識別的是三維環境的話，siri識別的語音是一維的嗎？
從模式識別的角度來說，識別三維難還是一維難？
有沒有做過這兩方面研究的人？

我以前做過幾天視覺方面的小東東，感覺能夠準確識別出目標就不容易了，再能識別出是人、辨識出人的動作就更不容易了。
好在kinect所處環境較好：室內、光線較好、需要沒有遮擋、攝像頭調整好後就一直固定不動了等等。
不過順便吐下槽，在狹窄環境中，kinect識別效果並不好，經常找不到我。

不同層面的技術優劣沒有比較的意義。如同比較馬化騰跟周鴻禕一樣，一個是用戶體驗層面的產品經理，一個是用戶價值層面的產品經理，無法比較誰更強。所以，Kinect應該跟VoiceAction比更恰當一些。
另外，非要比的話，倒是可以從革命性上比較一下兩者，個人認為是Siri更有革命性。判斷方法很簡單：看到Kinect能做的事之後，雖然興奮，但是沒有器雞皮疙瘩的感覺。看到目前Siri評測的表現後，有起雞皮疙瘩的感覺。
補充，Siri能搞定英文（拉丁語系）還是不夠牛逼的，要是真能搞定中文、日文（亞非語系）就太強大了。

為啥會有這樣的問題，能比較siri和cortana嗎