搜狗做AI:圍繞語言,力出一孔

搜狗做AI:圍繞語言,力出一孔

來自專欄羅超頻道5 人贊了文章

數千萬年前,猿猴為了生存,學會使用石器,跳下大樹直立行走,從而為人;人類為了更好地交流,發展出語言;為了記住過去,又發明了文字,從此人類有了有記載的歷史。

人類跑得不夠快,所以發明了汽車;人類的聲音傳播得不夠遠,所以發明了電話;人類不會飛,所以發明了飛機。

六十多年前,人類發明了人工智慧(AI),一種能幫助人類,卻也可能「替代」人類的新物種。

六十多年後,藉助「深度學習」的東風,人工智慧再次站在了產業界的風口。一時間,百花齊放,企業言必談AI。

在亞洲最大的科技峰會——香港RISE大會上,有演講者給參會者展示了虛擬人,有演講者發動所有參會者進入「AI能否像人類一樣具有創造力」的思考當中去。搜狗的王小川,竟然帶來了能夠像真人一樣播報新聞的「虛擬主播」。

AI能力進化史,搜狗濃墨重彩的一筆

2018年7月11日,央視主播「姚雪松」播報香港RISE科技峰會相關新聞的視頻出現在主演講台上方的大屏幕上。其實,他並沒有出現在會場。

王小川介紹說,搜狗使用姚雪松1.5小時的音視頻數據,結合語音,圖像等多模態信息進行聯合建模訓練,輸入一段RISE大會的文字稿,就實現了這次與真人無異的播報效果。

虛擬主播在技術上的實現意味著AI具有了更豐富的表達方式,從文字表達走向音視頻的富媒體表達。

虛擬主播技術的應用場景可以非常廣泛。首先,作為具備視頻內容生產能力的技術,該技術可以運用在諸如新聞,娛樂等場景中,自動實時快捷地生成富媒體內容。

其次,虛擬主播技術還能根據用戶上傳的單張人物圖片(明星、朋友、家人等)實時生成該人物的虛擬主播形象,用戶可以與其面對面交流。還可以應用於各種智能軟硬體,如果用於帶屏幕的智能音箱,用戶就可以從單純與聲音的交互變成與一個逼真的虛擬人物的交互。

未來,虛擬主播如果具備更完善的交互能力,就能用於教育、醫療、客服等多個行業,節約大量的人力成本。

AI產業,誰會贏?

搜狗因「國民輸入法」而為中國人所熟知,從不燒錢,在追風口的互聯網圈堅持自己的道路,何以突然之間,就能夠在人工智慧這個選手密集的賽道祭出此等大殺器呢?

從王小川在大會上的主題演講《人工智慧下一個應用突破》可一窺端倪。

在演講中他提到,語言是人類與動物最大的不同,掌握語言就掌握了靈魂;技術層面,語言是人工智慧皇冠上的明珠。

無論是百箱大戰中Amazon Echo、Google Home等多款圍繞著語音交互打造的智能音箱,還是會打電話訂餐的GoogleDuplex、會辯論的IBM Projector Debater,都聚焦於讓機器擁有「語言」這顆明珠。

搜狗因其對輸入法,對搜索持續不斷地更新升級,而在語言領域積累頗深。搜狗輸入法是中國最大的語音輸入法,目前語音識別準確率已超98%;日均語音輸入調用次數峰值達4億次;支持外文多語種和中文方言識別;智能斷句、標點預測、識別結果順滑等功能也領先於業界。語音合成支持多種音色選擇,通過少量數據即可生成說話者自己的合成音色,還可實現說話人風格的遷移。

AI當下最需要的也是「力出一孔」,即「利出一孔」。利出一孔,最早出於春秋時期的《管子》。管仲在《管子· 國蓄第七十三》中提到「利出於一孔者,其國無敵;出二孔者,其兵不詘;出三孔者,不可以舉兵;出四孔者,其國必亡」。

AI是個火爆的大世界,它涉及的技術五花八門,深度學習、大數據、語音、視覺、知識圖譜等等;它的應用場景包羅萬象,娛樂、媒體、營銷、零售、交通、工業、機器人等等,可以說無邊無際,有資源進行廣撒網的玩家是少數。隨著BAT等公司開啟AI布局,他們似乎更喜歡「跑馬圈地」,佔領儘可能多的AI應用場景,百度提出All in AI(集中一切力量做AI),騰訊提出「Make AI Everywhere」(讓AI無處不在),阿里強調「產業AI」。 搜狗的AI戰略不做大而全,而是圍繞一個戰略制高點做精做細,聚焦到語言相關的人工智慧,從單點打入整個AI行業,這讓它的AI戰略與眾不同。

整個AI產業也需要這樣的理念。AI技術五花八門,但首要問題,還是要幫助機器建立感知與認知能力,真正理解這個世界並自由交流。如何做到?兩個事情缺一不可,交互和知識,當機器同時擁有自然交互能力和知識計算能力,才能感知、認知這個世界,與人類智能交流,並幫助解決問題。

讓機器融入人類世界很重要的一步,就是需要機器理解人們通過自然語言的發號施令,理解大量的文本,理解大量的語音,理解大量的圖像,這就像解決觸摸屏對於智能手機的意義一樣,是不可繞過的關鍵一步。而語言又承載了人類的知識與思考。當機器進入到知識計算層次後,就能通過語言集合人類智慧,超越人的認知,回答、解決人類在知識世界的各種問題。

搜狗聚焦到語言,而不是五花八門的AI場景,也是希望將語言當成一個抓手,來撬動整個AI產業,實現力出一孔。它一方面在交互上布局,從語音識別、語音合成、圖像識別、圖像合成衍生研發出極具特色的情感遷移、唇語識別、虛擬主播等技術,都在解決交互問題;另一方面在知識計算上布局,比如做問答、對話、翻譯。

搜狗的AI戰略,讓我想起了智能家居的發展。最一開始,智能家居涉及到智能電視、智能家電、智能門鎖、智能路由器等等,不過在智能家居市場最先取得突破的卻是智能音箱這個小玩意兒,根源是選擇了從音箱上搭載更智能的語音交互助理來進行突破。同樣的,AI賽道中什麼都做,往往很難突破,如果有所聚焦,則能單點突破,將自己的AI牢牢嵌入用戶的心智,成功奪取入口,以點帶面。語言對於AI市場而言,就有點像智能音箱對於智能家居的價值。

?聚焦語言給搜狗帶來什麼?

不論是輸入法、搜索引擎、翻譯,搜狗的核心業務都與語言密不可分。如果說搜索和輸入法是搜狗的起家業務,為搜狗積累了大量的語言數據,語言AI技術則是搜狗未來的基石,承擔為搜狗開疆拓土的使命。

聚焦語言相關AI技術的發展,搜狗在自然交互和知識計算兩個領域上不斷強化優勢,將長板不斷築高,再在語言強相關的核心應用領域投入所有精力。集中優勢兵力、各個擊破,也是更適合搜狗這個體量玩家的策略。

尤其是在翻譯領域的技術突破與實用化進展,不僅讓搜狗領跑行業,也帶給了搜狗更多的信心。早在2016年的烏鎮世界互聯網大會上,搜狗發布了全球第一個商用神經網路機器翻譯系統,讓機器同傳成為重大峰會活動標配。跨語言搜索引擎和輸入法翻譯功能更是讓用戶得以打破語言壁壘,實現跨語言表達與獲取信息。今年上半年,搜狗發布的旅行翻譯寶和錄音翻譯筆則以行業黑馬的姿態殺入市場。搜狗相關負責人提到未來也將考慮以翻譯為入口,扎入旅遊場景做深度服務。

相信看到這裡,你對搜狗為什麼聚焦到語言這個獨特的領域,有了清晰的答案。AI已成為互聯網巨頭的必爭之地,像BAT這樣的廣撒網是一條路,像搜狗這樣聚焦到一個細分領域,實現單點突破,同樣是一條路。誰會走得更快,誰會走得更遠?時間會給出答案,我們樂見其成。


推薦閱讀:

欲迎還拒:谷歌靠AI回歸中國?來看看李開復怎麼說
2017·菠蘿科學獎 人工智慧主題解讀
互聯網時代應以何種態度看待人工智慧?
GPU 、APU、CUDA、TPU、FPGA介紹
英特爾最新推出的雲端AI晶元將於2019年面世

TAG:搜狗 | 王小川 | 人工智慧 |