交通銀行機器人是如何做到如此智能的?


謝邀。利益相關,語音從業者。

「整合了包括語音識別(ASR)、語音合成(TTS)和自然語言理解(NLU)技術甚至圖像、人臉和聲紋等多項頂尖人工智慧技術」,我相信他們有這些技術,至於是不是頂尖的,不評論。但是,這些技術和最近瘋傳的那個視頻並沒有什麼卵關係。當前的 ASR 和 NLU 能不能做到視頻中的水平,我就不評論了。即使不做語音這行,每天接觸到的靈犀、Siri、小娜這些已經代表了當前這兩項技術的頂尖水平,你們可以自己對比判斷。就是那所謂的 TTS,一耳朵就聽出來根本是後邊人說話,過了一道變聲而已,變聲是很簡單的技術,風靡一時的湯姆貓就是基於它的。網上有開源的庫 soundtouch,有興趣的可以自己玩玩。另外,中文語音合成的老大科大訊飛的 TTS 效果,你們應該都聽過,很容易聽出和真人說話的差別。根據恐怖谷理論,當人造的東西做得越接近真人時,它僅有的那一點差距就會顯得越顯著。視頻里那聲音,雖然經過了變聲,但其發音、韻律明顯不是合成出來的。

@莫英華 說的「機器人有一定的語音自動應答功能,就像siri,但能連接遠程客服作為智能化的補充」是對的,不過宣傳文案里大力強調其人工智慧技術多麼多麼牛逼,宣傳視頻里卻是人肉智能的演示,呵呵。


謝邀。其實我也被它萌得不行=.=

談談我的幾點看法:

1. 「做到如此智能」 不敢斷言。demo和實際產品之間的差距有時是很大的。在缺乏詳細的評測數據情況下,僅憑一個帶娛樂性質的視頻不太好判斷這個機器人究竟能做到什麼程度。

2. 個人非常看好垂直領域的對話系統或者機器人助理。前面有回答提到它用的是捷通華聲的技術,我覺得語音識別的可信程度還是比較高的,接線員的說法我不太認可。國內目前像百度、科大訊飛還有一些創業公司的語音識別準確率都已經達到了實用的程度,關鍵是後台對語言的分析理解能力以及魯棒性。而這些問題(包括語音識別本身)的難度在垂直領域內都能夠降低不少。

3. 我認為一個好的對話系統一定要做到實用性和娛樂性的平衡,現在有很多工作完全是用DL對問題與回復進行暴力匹配,完全不考慮回復內容的價值性,也不對問題的邏輯語義進行深入分析,這並不是一個正確的方向。從demo來看,交行這個小機器人能夠引導非常簡單的業務辦理,只要語音技術過關,適當加點娛樂性,其實不是很難。

相信在未來幾年其他領域也會有很多的類似產品出現。據我所知,國內外很多知名的NLP Group(包括Stanford NLP)都正在朝這個方向發力。


服了各位技術分析帝,我就貼張圖,貼個網址

交通銀行新推出的「交交」智能機器人,按照目前的機器人水平能達到嗎? - 人工智慧


今天簡單了回答了一下這個問題,原答案已經放在了分隔線以下,其中包括對其中幾個答主的評論,不得不認真的來回答一下這個問題,否則你們這幫妖孽也太小看知乎用戶的水平了吧?

視頻看過幾遍,總體上來說這個機器人視頻的宣傳目的達到了,並且做的很不錯,在不懂得人眼裡一定覺得這玩意很高大上,科技發達balabalabla

但這裡面一堆帶著參數,帶著公司名字帶著褒獎的回復的確讓我覺得這幫人有點侮辱人的智商的意思,要知道知乎里是有可能有各方面的專才的,水軍在知乎不是沒有,但我想發揮的效能可不一定是好的,比如前幾天那個什麼遊俠汽車就被乾的一塌糊塗,今天你們要是想來干這個,我就打算跟你們說道說到了!!

「並且憑藉靈雲平台強大的多能力融合和大數據處理能力,整合了包括語音識別、語音合成和自然語言理解技術甚至圖像、人臉和聲紋等多項頂尖人工智慧技術」

該機器人有這些能力我是沒辦法否認的,但是我從視頻中除了語音合成能力其他的能力根本感覺不到,因為整個流程都是由人與人進行溝通的。之所以下這個結論,那麼聽我慢慢道來

第一點,尋找銷售經理的這一點上,首先機器人如何定位客戶經理的位置的?從我已知的技術上無法理解這個問題,首先計算機先要知道誰是客戶經理,客戶經理在哪裡,我該如何去找她,我該怎樣判斷客戶經理現在是不是方便接待這位客戶,這三個問題僅靠這台機器人理論上是無法完成的。

問題一:

誰是客戶經理

首先,誰是客戶經理,這個地方個人認為按照那些答案里的回答,需要用人臉識別,聲紋識別方式來確認,但這兩項技術的實際使用要求都非常高,而且有距離的限制,我做過聲紋識別的測試,也是某銀行的項目,下載已經在部分分行進行推廣,被用作加強密碼的一個補充保護。下面說說測試結果,通過電話連接伺服器,使用移動,聯通,電信三種不同制式的網路連接被測設備,因數據傳輸模式和音頻效果不同,同一個人是用其他制式的網路進行測試,是無法通過聲紋驗證的,如果降低準確率又會造成被識別成其他人。同時,大廳環境的影響,距離的影響導致機器人通過聲紋識別的方式尋找客戶經理的位置是不可能的,其次呢,人臉識別,這項技術相對成熟一些,但實際應用過程中也對使用者有很多十分重要的要求,同樣的,在距離相對較遠時無法通過人臉識別系統區分被識別者身份。

問題二:

客戶經理在哪裡,

室內定位系統?GPS系統?跟這幫人的討論中,我看到有人提到機器人是科沃斯出品的,正巧我家有兩台科沃斯的機器人,一台掃地機器人,一台擦玻璃機器人,擦玻璃的不提了,根本不會自己充電,掃地機器人是可以自己找到自己的充電器的位置的,這個技術說白了十分簡單,科沃斯機器人的充電底座上有一個360度照射的紅外led,簡單來說就是遙控器上那個led燈管,當機器人電量低以後會在室內關閉清掃功能,繼續隨機搜尋紅外信號,直到發現目標後向目標方向前進或因為電量低而自己歇了。這種低科技含量的技術我實在無法想像機器人用了這種方式尋找客戶經理,如果是真的的話,其實有一種可行性,就是每個不同角色的銀行職員身上都安裝上隨時閃爍的標識,機器人通過紅外攝像機確認特定標識再去找,但這種情況會遇到一個問題:就是標識的可識別性,如果標識只是客戶經理胸前的一個工牌,那麼當客戶經理背對著機器人或者被遮擋的時候,機器人無法找到相應的標識,另一種方案效果會好很多,每個員工帶一個帽子,上面支一根天線,在頂端發射紅外信號,這樣辨識度就可以提高很多,不過估計這幫桂圓姑娘們沒人願意都變裝成天線寶寶吧?那麼GPS定位系統?每個員工身上都揣著一個GPS模塊,這個可能性不是沒有,但室內定位的精準度大家是有目共睹的,顯然這個機器人是沒有使用這項技術的,下面最有可能的就是室內定位技術,通過多wifi使用多點定位法,確認某設備在房間內的位置,但這項技術目前好像只有蘋果在玩吧?而且該技術就不僅僅是這個機器人的技術了,需要對整個網點進行重新改造才可以實現,並且客制化每個不同網點的地形給每台不同的機器人,恐怕這個成本不會比請幾個臨時工來的低。但目前這個是未來最可行的辦法。然並卵,這機器人沒用這個功能。

問題三:

機器人如何識別客戶經理是不是在忙?

說實話,我除了想到客戶經理拿一個遙控器對著機器人按一下「我在忙」的按鈕,我想不到什麼方式能在不打斷客戶經理工作的情況下,快速的告知機器人滾蛋,去找別人,因為光靠剛才上面說的技術,計算機恐怕還沒辦法理解人正在做什麼事情。

以上是對該機器人不合理的地方的一個方面進行的思考

下面一點來說說語音識別,自然語言分析這兩個方面來思考一下其不可行性

語音識別領域裡 siri、小娜、微信恐怕是大家最熟知的三款產品了,在啟動以後都需要較短時間的識別翻譯,但視頻中的機器人,不但快速的理解了客戶所說的話,而且極快速的就做出了合理的反饋,回想起之前那個笑話,對著Siri說我要吃屎,大家看看Siri如何回答的。如果說全球最好的品牌做的語音識別技術和自然語言分析技術都只能到那個水平,這個產品現在的黑科技足夠領先世界起碼5年了吧?最重要的是不僅識別速度快,其對話語的理解能力簡直超越了目前搜索引擎的識別效率~!

包括我之前說過,在它轉身的時候,卡了一下,然後這玩意居然說,哎呀,卡住啦什麼的,這種話,技術上可以實現我確信,但中國有一家公司能做到這個地步,抱歉,我不信。

所以說這個機器人富含各類高科技,我相信,但整個視頻中對其所描述的高科技的使用我只感受到了人聲模擬技術。其他的在我看來無非就是遠程真人與客戶之間進行視頻對話,僅此而已

我對這個小東西真的挺感興趣的,其實也只是打算調侃一下就完了,沒想到這麼多文宣跑到知乎來開始把這種產品描述成全自動化高精尖人工智慧產品,我就有點煩了,而且一來來一大幫,我就無奈了。歡迎來反駁我,我就在銀行上班,也是搞過軟硬體的,自己寫過軟體,做過硬體,不服來辯!

————————————————————我是分割線———————————————————

這玩意我簡單來說吧,從轉身的時候一句,哎呀,卡住啦就能判斷出這不是人工智慧的產物,理論上應該是一個遙控機器人,實時音視頻傳輸,同時可以移動,僅此而已,做宣傳不錯,做事就算

複製一個在別的答案下的評論

(作者) 回復 張嘉樂

卡住了那個我在展會現場看過,的確會說卡住了,當時的情況是它卡住了,然後會說類似「我暫時響應不過來,給我點時間」之類的話,但是是很機械的話語,利用機器內部感測器來反應是可以的,存疑的點是它的反應能不能做到那麼快,一半機器人都有一點點延遲。

我進入了他們的靈雲官網去了解,發現他們的識別服務有一個身份識別功能:「通過人臉識別、聲紋識別等方式辨識交互人的身份」,它對客戶的記憶是較為短暫的,但是估計員工是有一定檔案錄入的,比如我只需要認識大堂經理是個姐姐……

從我來看這也不算是人工智慧,更多應該是一種交互方式,將回復的延遲時間盡量縮短,同時將語音配得更有個性一點,符合機器人的形象及氣質,回復也是在詞庫裡面編寫好的,具有一些大家可能會問到的問題,檢測關鍵詞來回應。

你可以看看國外的BUDDY機器人,PEPPER機器人,它們的交互情況也很理想。

16:06

張嘉樂 回復 (作者)

設備報錯「暫時響應不過來」我信,感測器控制說「哎呀卡住了」技術上可以實現我也知道,但是結合當時的視頻,整套問答皆屬於人工智慧我真不信了,視頻里設備對答如流,回憶現在的siri和微信的語音識別系統反饋時間也一般吧?再回到人臉識別這個問題上,技術上可以實現我也知道,但實現的方式絕不是像現在一樣高效快速的,未來十年內技術可以達到這個水平是我堅信的,但現在他的反饋速度之快,無論是語音識別,人臉識別的準確性,再回到換表情這個部分,他的反饋是極其人性化的,不僅如此,再換表情的時候速度慢了,他自己還會給自己找話題,你說這是人工智慧,就逗我了吧?

20:26

張嘉樂 回復 何門恩(作者)

看到你對人臉識別這部分作出了回應,那麼就說說聲紋識別和人臉識別這部分,當時機器人找人的時候很果斷的180度轉身去找人,正巧那個人就在它身後?它的尋人技術如何實現?身後還有攝像頭?聲紋識別的項目我做過測試,在安靜的環境下識別率都有限,通過電話網路傳輸的音頻都會因為不同制式的網路而發生無法識別的情況,那麼如果是本地識別就是在本機里對被識別對象進行數據存儲,也就是說客戶經理要預先錄製音頻和視頻,回過頭來看,即使這兩點都已經解決了技術難題並做到了現在的地步,也會造成過多的誤判,識別率的閾值設定會很複雜,重點就是這麼多技術難關他都處理好了?我才不信

20:34

顧劍 回復 張嘉樂

找人那個應該能做到,掃地機器人都能回去充電了,大堂經理身上帶個東西應該就行?這個機器人實際使用的範圍就是銀行大堂,輔助進行身份識別的設備應該很多,比如攝像頭和刷卡叫號機等等,交行環境也相對安靜些。就是不知道有沒有搞過這些輔助設施,看其他答案好像沒特別做過,人工輔助的可能就比較大了。不過就算是個遠程的大堂輔助也挺好,銀行vtm不也是在做么,這個至少還萌,滿足需求的就是好技術。

21:08

張嘉樂 回復 顧劍

我加油科沃斯的機器人,回去充電是依靠紅外光.....用這個找人簡直就是開玩笑....

21:28

顧劍 回復 張嘉樂

所以還有說輔助措施,利用攝像頭之類。其實是想起了之前設計的一個銀行大堂方案,類似谷歌眼鏡給大堂經理用,叫號機識別身份,攝像頭判斷位置,然後大堂經理看每個人都能看出來戰鬥力。。啊資產凈值。。。最後問題太多主要是投入產出比不高所以就沒搞

21:35

張嘉樂 回復 顧劍

計算機識別的方式咱們來討論一下,無非就是各種感測器,那麼光學感測器是應用的最多的,另一個能夠像這種定位準確的就是gps定位,咱們先來說gps的室內定位效果,可以說很差,機器人通過gps定位方式定位銷售經理的可能性基本可以排除,下面是光學定位,科沃斯機器人的底座上有一個360度照射的紅外led,簡單來說就是遙控器上那個led燈管,當機器人電量低以後會在室內關閉清掃功能,繼續隨機搜尋紅外信號,直到發現目標後向目標方向前進,但紅外信號在大廳內會受到嚴重地干擾,而且要想區分大堂人員的身份就需要在每一個工作人員的身上安裝不同的標誌,而且還得是裹一圈,不然特定角度機器人就找不到了,而且我剛才說了機器人是直接回身就找到人的,這不符合我剛才說的尋找半天才找到的情況,通過攝像頭掃描二維碼標識也是很好的辦法,但同樣遇到超過一定距離就無法識別二維碼,只能通過近距離識別身份,大堂範圍內找人是不能通過二維碼實現的,rfid也是一樣的是識別方式而不是定址方式,人臉識別一樣無法完成這個功能

21:46

張嘉樂 回復 顧劍

現在建行的平板電腦有這個功能,但還是要靠人來識別,平板上會顯示客戶的照片,但Google眼鏡就開玩笑點了,識別的依據都沒有...總不能每個客戶都進行面部分析吧


謝邀,以下是我的看法:

這是集中客服的一部分其實原理大體上與電話坐席相仿。機器人有一定的語音自動應答功能,就像siri,但能連接遠程客服作為智能化的補充。由於使用音頻過濾功能,因此客戶聽起來比較連貫,難以區別什麼時候是自動應答,什麼時候有客服連線。

這款機器人如果批量推廣,最大的好處在於節約人力。按照目前國內銀行業的服務慣例,基本上每個網點都配備一名以上的大堂經理或引導員。而客戶也習慣於向大堂經理諮詢業務辦理流程。但隨著電子銀行業務的推廣,銀行櫃面客流在不斷減少。不少網點出現大堂經理的閑置時間,一些郊區或工業區網點情況尤甚。而大堂機器人則通過後台集中的方式減少人員配備。10個機器人,後面也許只有5-6名甚至更少的客服人員。在閑事,簡單迎賓,簡單業務諮詢,甚至普通賣萌階段無需遠程客服控制。當網點進入繁忙時段或內置智能無法應對是,連接遠程客服。

交交的出現除了體現企業創新能力和賣萌以外,更多是一種基於成本節約願望的電子化的趨勢。相信機器換人在金融業已經逐步開始。


謝邀。利益相關,交行某省分行人員,這貨大名叫智慧交交,製造商是捷通華聲,號稱是利用了其開發的靈雲智能客服機器人系統,與我們共同推出國內第一個大規模應用的智能客服機器人。說明書上說它搭載的各項交互技術都是捷通華聲最新的人工智慧技術,並且憑藉靈雲平台強大的多能力融合和大數據處理能力,整合了包括語音識別、語音合成和自然語言理解技術甚至圖像、人臉和聲紋等多項頂尖人工智慧技術,至於是真是假我們也不知道,反正在系統內挺熱門的,你看的那個視頻應該是成都某網點的,據我所知現在第一批有這貨的還有新疆山東遼寧江蘇貴州廣東的一些網點,應該會大規模推廣。


這個機器人的外觀是科沃斯支持的,沒錯就是做掃地機器人的科沃斯,它們原裝的機器人是用遠程客服語音回復的。

機器人是這款:ECOVACS Robotics Co., Ltd.

語音系統根據樓上的回答我們可以看到是捷通華聲公司的技術,這是他們官網的新聞:捷通靈雲智能機器人「交交」入駐25省市交通銀行

第一次見到科沃斯機器人是在2014年的高交會上,當時機器人已經能夠挺好的回答了,但是還沒這麼智能和自然,會有一定的語言延遲,根據問題難度大概在一到五秒左右,當然賣萌也沒有那麼厲害,基於科沃斯的優秀底盤結合識別技術,機器人的運動和識別也得到了提高。

從視頻上看,這樣的互動情況的確是一個挺可喜的水準,這樣自然的交流讓icub,musio啊這些主打交流的有壓力了,當然也有人說是遠程操控的,我對此持懷疑觀望態度,畢竟日本的pepper視頻看了那麼多,進行流暢的、有個性的交流對於現在的語音系統來說並不和以往一樣是個大難事。

我們更驚喜的是它能夠識別出對方是男是女,還能去找人,求助,最可愛的那個「哎呀交交卡住了」,可以通過感測器實現,這是它的交互設計里非常具有擬人化的一個小變動,讓它變得更加親切,也和以往冷冰冰的機器人區別開來。

但從延遲情況來看,極有可能是兩個技術結合了………………


現階段技術能達到視頻里的語音識別率不太可能。因為它不是近距離識別(即使是近距離識別,單詞識別率也只有90%左右),不用考慮噪音回聲等。遠距離識別即使在實驗室數據中效果也會非常差的,所以基本判定是後台有人回應的。

但是可能會用到人臉或者聲紋識別技術,輔助判定客戶身份。這些技術單獨的識別率不能達到100%,但是配合客服人工操作,是能達到業務效果的。


推測是語音識別+後台人工干預。在拍視頻的時候為了達到效果而且不出錯,後台人工干預是常 用手段。平時隨意一個客人,直接用語音識別即可。

視頻里的機器人亮點主要是1. 對話語調豐富,甚至略帶口音。 2. 決策非常靈活,直接知道大堂經理在身後,並且迅速意識到自己卡住了。3. 上下文太連貫了!小冰、Siri 或者百小度都比不上!

在BD 自然語言處理部呆過,根據目前的技術,百度 Google 算是在自然語言處理上比較強的,但做不到第一點,第三點是多輪對話技術,效果也達不到視頻里那樣。第二點,技術實現並不難,通過加速度感測器或者視覺反饋都能夠判斷出是不是卡住。



這個要匿名。交行技術條線員工,參與分行嬌嬌上線。一句話概括智能的原因:背後有人。


很明顯有遠程客服在通過網路操作,視頻中有很明顯的證據:

就是說「哎呦,嬌嬌卡住了」,之前的半句話有中斷的情況,機器人轉身的過程中停了幾秒,明顯是網路卡的表現,而不是機器卡住了。

而且即便是有人臉識別什麼的,在大廳里這麼多人,通過軟體不一定容易識別出誰是客戶誰是大廳服務人員。機器人在轉身找「姐姐的時候」,很明顯是人在操控的。

猜測是:機器人通過wifi連接網路,然後連接類似於交行客服中心的地方,有專門的客服來操作機器人和選擇對話。


匿名先,怕總行人肉。後台客服,很明確,服務辦移交過來的。


感覺真人應答+變聲的可能性大一點。

好奇為什麼沒有人去做個圖靈測試。


我覺得以目前水平做出來的機器人,基本上只能做到簡單的能聽會說功能,這個功能依託於背後的中遠場的語音識別技術,語義分析/理解和語音合成功能。如果分清楚某個特定的人,那還會增加一項說話人識別(也就是樓上朋友說的聲紋識別功能)。每個功能模塊性能的還壞直接決定了該機器人的使用體驗。

個人感覺這些技術目前都還不太成熟,實際體驗遠遠達不到宣傳中的那種效果:

1)首先是語音識別的準確性問題。當背景雜訊存在或者是多說話人同時說話是,機器人都不太能識別得到用戶說話的內容,這會導致機器人後續一連串的反饋不符合用戶的心意。另外一個問題是遠場的問題,當用戶髮指令的位置離機器人較遠的時候,體驗也會比較差。

2)語義分析/理解的歧義性問題。同樣的一句話,自然人理解起來都需要根據上下文分析,得到正確的語義,何況是機器。例如:「你真行」,在語句「你真行,這麼難的事情你都能做成功」和語句「你真行,這麼簡單的事情都被你搞砸了」中,意義是不一樣的。我只列出了一種問題,其餘的可能還有很多問題。

3)語音合成(即TTS)自然度的問題。一般來說,經過TTS合成出來的語音,都存在不自然的問題。

4)聲紋識別技術,需要一些說話人語料去註冊聲紋,但是依然達不到指紋識別和人臉識別的精度。一旦說話人的發音特性(如感冒、喉嚨痛等)改變了,識別率嚴重下降。

另外一些變聲技術等,可能都不是主要的技術難點。


我還記得,這個視頻出來以後,我們行主管說,他們這個不實用!

然後我在心裡吐槽:不管實不實用,起碼人家想到了用機器人去取代人工,有想到,他們就已經走在我們前面了,我們還有什麼資格去說葡萄是酸的。

說實話,櫃面很多業務都是常規性經驗型的,很多都是不講情面,只講法律和原則的,那這種情況下,有什麼是機器人不能做的呢?!未來櫃面會被機器人取代。


來來來,內部人員告訴你,我每天和嬌嬌聊微信,嬌嬌最愛喊的是無線網沒插好,哈哈!就是個忽悠人的東西!


強行回答一下,自己朋友圈裡經常有人轉發在銀行里看到的這個所謂的機器人,正好我現在研究生學的方向是自然語言處理。就自己知道的一些淺薄的東西講一下吧,一般來說這種機器人或者說智能搜索引擎的流程是:1.語音轉化成文字。2.理解語義。3.在已有的知識庫中搜索答案,最終給出相應答案。我現在是做其中第二步裡面一小塊,叫關係抽取,想了解的各位可以在知網活著ccf的連接上搜一下關鍵字,了解一下在中文自然語言處理領域最新的技術和水平,因為實在是一兩句話說不清。一般來說在特定領域裡準確率召回率在百分之七十左右就算不錯了,考慮到這個流程中這麼多模塊,就算每個模塊能有百分之九十的準確率和召回率,最終的效果可能都是災難性的。按照這個機器人的表現,在研究階段的論文應該早就轟動學術界了吧,我們也應該早就邁向下一次工業革命了,還讓你在這看知乎?快去給機器人做奴隸去吧!


我就貼個視頻。。。。這貨比交交跑的還快呢。。。。。

交交。。你們後台聲優的技術還得提升啊。。。。

秒拍視頻


謝邀,我們分行營業廳就有一個。形式大於實質。周一到周五上行政班,下班比我們還早。據說一次性付了5w,之後每個月還要付5000維護。唉。。。真心想坐在嬌嬌後面,做視頻直播,上班還更輕鬆啊。 只是覺得有這個錢,不如再請個大堂或者高櫃吧。噱頭而已,呵呵。它還經常把小朋友嚇哭,我會告訴你們咩! 不過在當地廣告效應還是不錯,有人慕名而來看它的。


推薦閱讀:

李開復在 CMU Sphinx 項目到底是什麼地位?
Siri 通過語音識別提供智能助手服務,這樣一個產品的技術挑戰在哪裡?
什麼是語音分離技術?它有哪些最新進展?
訊飛輸入法和搜狗輸入法哪個語音輸入更好使?
在不久的將來五筆輸入法會不會退出輸入法界,畢竟身邊的人現在漸漸的改用了語音輸入?

TAG:機器人 | 人工智慧 | 語音識別 | 交通銀行 |