你的上下班路線,和數據變現有什麼關係?| X實驗室
編者按:本文來自微信公眾號「峰瑞資本」(微信號:freesvc),授權知乎發布,轉載請聯繫原作者。
英國科幻小說作家亞瑟·克拉克曾指出,任何科技如若足夠先進,就和魔法別無二致。
《經濟學人》今年 1 月發表的封面文章《輕而易 「語」 》回應了亞瑟的觀點,作者以迅速發展的語音識別技術舉例:對著空氣說一句話,附近的智能設備就會幫你得償所願。
這種變化非同小可。機器誕生之初,僅能對縱列數字做簡單的加法運算,而現在卻可下出一盤好棋、理解簡單對話並執行指令。
在語音識別與大數據的寶藏中,我們還可以挖掘什麼?
第 2 期「 X 實驗室」,峰瑞資本(FreeS Fund)將與中國人工智慧學會一道,走進科大訊飛大數據研究院。他們從 2003 年起即啟動語音識別項目,至今識別準確率已達到 97%,而期間積累下來的大數據,則為精準營銷、個性化學習、智慧城市等領域的研究打下基礎。
「 X 實驗室」第 2 期 值班研究員
我是 2015 年加入科大訊飛的,此前曾經創辦了一個大數據創業公司,為中國移動等企業做了一些大數據項目。隨著業務的開展,我和創業小夥伴們發現做好大數據技術的前提條件是能夠接觸到真正意義上的大數據,否則就像是一直圍繞著大數據這座金山周圍的小土丘打轉,挖不到真正的金子。恰好這時,訊飛邀請我加入,組建訊飛大數據研究院,從訊飛人工智慧開放平台 8.9 億用戶這座金山裡挖掘數據價值。
訊飛核心研發部門包括訊飛研究院、雲平台研發部、大數據研究院、語音資源部。這幾個部門加起來共有 500 人左右,不到訊飛的員工總數 6000 人的十分之一,但是這些部門產出了訊飛幾乎所有的科研成果。
通常,核心研發部門相對較為關注如何把技術做到極致,而業務部門則更注重思考技術的落地和應用。我們的工作不僅局限於研發頂尖技術,還包括業務系統研發過程中的技術諮詢、方案設計等很接地氣的工作。有時為了核心技術的落地應用,我們也會和業務部門一起走到前線,和最終用戶溝通需求。同時,核心研發部門也是公司內部資源共享的重要平台,例如公司會把所有部門的數據處理分析任務都放到研發部門的大數據平台 Odeon 上來,整個公司的業務數據都是打通和共享的。
今天,我們重點關注以下幾個問題:
語音識別準確率達到 97% 之後,我們計劃做什麼?
大數據變現的關鍵要素是什麼?
- 要想實現「紅海」突圍,大數據企業可以做什麼?
語音識別的下一步
回答這個問題前,我們可以先回顧一下訊飛是怎麼一步一步把核心技術做到世界領先的。
2003 年時,訊飛下定決心,要做中國的原創核心技術企業。那時,大家都認為語音識別不可能賺錢,有誰會對著機器說話呢?正是市場的這種認知,逼著我們嘗試把語音技術應用到各個領域去,在各個領域都紮下了一些業務的苗子。例如,我們通過聲紋識別和人臉識別的結合來搭建社會保障生存認證系統,又通過語音識別和轉寫來做訊飛輸入法,還做了口語考試的語音評測體系等等。
我們在技術層面取得的突破,得益於 2006 年開始,深度學習技術的迅速發展。在 2008 年至 2010 年間,訊飛最早把這項技術運用到了語音識別領域。 2010 年後,我們又把單純的語音識別擴展到自然語音理解,並嘗試了人機交互、圖像識別方面的工作。現在,訊飛的語音識別準確率已經可以達到 97%,並且能夠實現實時語音轉寫和翻譯。
回顧過去,我們最初的願景其實是讓機器能聽會說,而能聽會說的下一步則是理解自然語言。這個標準實際上已經非常接近於要求機器能理解、會思考。語言是人類區別於其他動物的最大特徵,到了以 「能理解、會思考」 為目標的階段,訊飛也自然而然地從語音技術公司轉變成了人工智慧公司。
不過,雖然我們的核心技術已經應用到了各個領域,我們仍始終認為,讓技術轉化為實際生產力是一個非常漫長的過程。即便技術登峰造極,產品如果不接地氣,市場仍然不會去買單。在我們的辦公園區里,有一座名為 「頂天立地」 的雕塑,寓意就是提醒訊飛人:技術要頂天,應用要落地。因此,我們認為,即使技術走到了 90% 或 99% 那一步,如果還沒有得到市場的認可,我們也只是剛剛起步。
大數據的變現通路
訊飛基於自有大數據或者合作夥伴的大數據,重點在精準營銷、個性化學習、智慧城市三個方向做了應用落地和技術研發。
精準營銷
在精準營銷領域,訊飛最大的優勢是有自己獨一無二的大數據來源。訊飛的人工智慧開放平台向所有有興趣做人工智慧應用的合作夥伴開放人工智慧能力,同時通過這些合作夥伴手機到了大量的用戶行為數據。訊飛現在有 20 萬家合作夥伴,領域從手機輸入法、手機語音助手,到導航 App 里林志玲、郭德綱的語音,還有購物 App 里的語音搜索,訊飛已經構建起一個人工智慧和語音服務的生態圈。
例如,目前市面上能夠買到的和人對話的機器人、兒童玩具或手機 App,80% 以上都使用了訊飛的人工智慧雲服務。目前平台上有 8.9 億獨立用戶,包括訊飛輸入法的 3.6 億用戶,每天產生 30 億次交互。因此訊飛也建設了大數據能力平台 Odeon ,用來存儲、處理這些大數據。Odeon 自 2010 年上線以來,目前集群已有 400 余台,日均新增數據達到 100TB。這是訊飛自有大數據寶藏的最主要源泉。
以平台上的大數據為基礎,我們綜合運用人工智慧和大數據技術,從人生階段、行業、購物偏好、媒介偏好等維度,用 1700 個子標籤對這些用戶作出區分。例如,聲紋識別技術對用戶的性別劃分、年齡劃分很有幫助,如果僅靠傳統的用戶行為數據或日誌數據,我們是沒有辦法得到這些精準結論的。
用戶畫像完成後,第一件可以做的事情就是精準營銷。精準營銷的核心價值在於對用戶的分析、挖掘以及引導,而導流的最終體現則是用戶對廣告的點擊。這已是一條比較成熟的數據變現路徑。
在廣告形式上,訊飛也做了一些創新探索。例如互動式廣告,用戶對著手機喊出相應的品牌,即可贏得一些獎勵。現在,我們不僅對內部的訊飛廣告平台提供服務,也對有精準營銷需求的第三方提供數據交換和查詢服務。這項業務每年可以做到數億流水。
另一部分精準營銷的工作內容圍繞推薦付費內容展開,包括推薦付費音樂、鈴聲、閱讀和一些視頻內容。根據個性化推薦演算法,我們把不同的付費內容匹配給不同用戶,再進行一些商業化運作。
個性化學習
在教育領域,「因材施教」 的道理聽上去很簡單,但背後需要非常複雜的腦力勞動來支撐。老師需要知道學生擅長什麼,什麼相對而言比較薄弱,了解程度需要具體到知識點層面,比如,某位同學擅長一元二次方程,但平面幾何稍差一些,題目設置的難度和學生需要投入的精力,在這些知識點間都要有所不同。
通常,老師了解學生學習情況的方式是上課提問,或者看作業錯題和考試成績。如果用機器來完成這一步,就需要讓機器也能夠 能看會寫、能聽會說。訊飛目前的做法是用高速掃描儀,把學生日常作業、隨堂檢測、考試答題卡等全部掃描進去,把題目和答案轉化成一個個對知識薄弱點的判斷數據,再把這些數據集合起來形成教育大數據,有針對性地向學生推薦相應的課程和題目。
這其中,關鍵的兩個步驟分別是:利用人工智慧的手段,搜集真正的教育過程數據;把教育過程數據轉化成為學生學習過程中有的放矢的針對性輔導。按照中國目前的經濟發展水平,我們不可能要求所有學校學生的學習過程全部上網,所以我們提供了上述解決方案——高速掃描手寫作業和試卷。
我們組建了一支數十人的團隊來完成這部分工作。項目籌備期比較久,直到 2014、2015 年時,我們才在技術層面取得突破。在評閱英語作文、語文作文這一塊,我們曾面臨很多問題。例如,在英文作文中出現了漢語拼音怎麼辦?從文字識別到自動評分,這個過程花費了一些時間才得以完成。這兩年學生參加四六級考試,作文部分的閱卷工作很可能就是由訊飛的機器來完成的。我們在 2016 年時做過驗證,機器閱卷判定的分數,和專家組的打分結果不相上下。
現在,我們和全國百強校中的一半學校簽署了戰略合作協議,把個性化學習的核心技術打造成訊飛的智學網產品,供全國各地的學生使用。最初訊飛的個性化學習實驗在合肥一中開展。實驗結果非常好,一個學期的時間,兩個實驗班同學的數學平均成績提高了 10%,從全年級二十多個班級中的第 14、15 名,提升到了第 1、2 名。
與此類似的領域還有醫療大數據。這部分業務,我們還處在探索階段。醫療是一件非常有趣的事情,就像學生學習依賴於有經驗的老師來輔導那樣,醫療也依賴於有經驗的醫生的判斷。我們通過數據收集、設計人工智慧模型,學習有經驗的醫生的診斷過程,再把診斷過程變得自動化。我們已經取得了一些成果,例如在肺癌檢測方面,以前診斷一個病人,一位醫生要花費一天的時間看上幾百張 CT 片,現在這個過程機器只需要幾分鐘就可以給出初步結果供醫生決策。
智慧城市
加入訊飛後,我的第一個任務就是做智慧城市大數據分析。想讓城市的服務變得智慧化需要調用許多大數據,包括交通數據、運營商數據、政府數據、輿情數據等。如何從這些數據中分析出城市的發展狀況以及城市內部存在的問題,是我們的核心任務。
其中,在交通領域最基礎的工作是跟蹤人和車的移動軌跡,研究他們的移動規律。每座城市都可以劃分為若干個區域,區域間的人群流動就像城市的血脈。例如,白天人們從 A 區到 B 區上班,晚上人們從 B 區回 A 區居住休息。
從這些移動軌跡中,我們能夠分析出人們在哪裡住、在哪裡工作、去哪裡娛樂,能夠發現城市的職住比是否平衡,每片區域更應該打造成為商業區、居住區還是工業區。此外,我們還可以據此判斷發生擁堵、踩踏事故的幾率,並提前 20-40 分鐘進行預警。
在判斷軌跡的數據來源方面,我們認為,地圖導航等 App 的使用頻率還是偏低。相較而言,手機運營商的基站產生的數據量更大。城市裡,所有人的手機幾乎都時刻連接著運營商的基站,不停上報自己的位置。
不過,運營商基站接收到的信號範圍半徑在 1000-2000 米左右,沒有辦法精確到城市規劃所需的 100 米的範圍內。我們為此設計了核心演算法,通過高頻採樣,把不精確的數據儘可能精確起來。現在精確度基本可以達到 50 米左右。
此外,我們還會在互聯網加政府服務領域做了一些數據打通的工作。此前政府的信息化系統基本上相當於一座座數據孤島,距離數據共享、交換還有一段距離,需要一套政府政務數據流通和交換的生態系統。
這裡舉一個例子說明我們可以做的事情:在安徽蕪湖,我們把原來每個部門一個的政府服務辦事窗口從 10 個減少到了 2 個統一受理窗口,工作效率不受影響,反而大大提升。這是因為原來公文流轉的速度很慢,而現在可以通過我們的政務數據共享交換平台直接交換各部門的數據和審批結果,所有便民便企服務都可以得到及時處理。
「紅海」中的新機遇
訊飛作為一家人工智慧企業,從 2010 年開始做大數據,對於大數據產業有一些自己的認識。大數據產業可以從四個層面來觀察剖析:
一是大數據技術的發展。這裡更多是指數據的分析和挖掘技術。在數據統計查詢層面,我們已經做到比較成熟的狀態,再進一步是數據的理解和搜索,以及對未來態勢的預測。層次越往上,做起來越困難,越不太可能用簡單的統計分析方法來解決,越會更多地依靠深度學習、機器學習等人工智慧相關技術。
二是大數據的生態體系變化。現在,大數據產業內部的分工越來越明確,很多企業都在尋找自己在產業鏈中的定位,包括訊飛自己。提供數據、提供技術、制定交易策略,還是去做應用,這都是不同的發力方向。訊飛大數據研究院也是訊飛對大數據產業戰略思考之後的產物,也就是訊飛要做大數據領域的核心技術研發者。
三是大數據市場的變化。目前,在互聯網、市場營銷領域,大數據挖掘已成為 「紅海」,競爭和技術擴散涉及各個行業。政府、金融、電信等領域也成為大數據應用的重要增長點。而在傳統零售、製造、物流等行業,大數據還大有可為,值得在數據採集、處理、存儲方面多下功夫。
四是大數據服務形態的變化。這兩年,人工智慧的概念炒得很熱。我是做大數據出身的,面對這種熱潮,心態已經比較平和。我相信,如果你去問一個做物聯網或者雲計算的人,他的心態會比我更平和。技術的發展是有自己的節奏的,作為技術研發人員,還是要跟著自己的節奏走,不能跟隨市場熱點而波動。
在這片市場中,也有創業公司可以一展身手的機會。這些機會更多在於具體的應用創新。大數據細分市場有很多,包括交通大數據、教育大數據等等,每個領域都是無窮無盡的寶藏。就目前來看,我們其實連寶藏上的第一層浮土都還沒挖開。
其實,無論大數據、人工智慧還是雲計算,都是信息服務業的一個技術組成部分。現在,這三者之間已經產生了緊密的聯繫。人們越來越難以區分誰是大數據、誰是雲計算、誰是人工智慧。應該說現有的信息化服務的最終目的都是為了提供能夠隨時隨地獲得的智能化服務,並在達到目的的過程中從海量數據中不斷自我學習、自我優化這些智能化服務。
這是「X實驗室」的第二期。
X 是一個佔位符,一個空缺的變數,等待你的想法和創意。峰瑞資本試圖傳承傳統實驗室精神。谷歌成立 X 實驗室並開展登月計劃時,拉里·佩奇曾這樣表達初心:「我們非常認真地想讓世界變得更美好 。」 如同製造首顆原子彈的 「曼哈頓計劃」 ,又如同 AT&T 等企業的研發中心。比起短期利益,這裡更關注尖端技術及其長期價值。
在這裡,峰瑞資本與你一起,大膽想、大膽做。
推薦閱讀: