科學式家|胡時偉:讓數據科學家成為業務專家,再為他們配一支技術軍團
本文為清華-青島數據科學研究院聯合大數據文摘發起的《數據團隊建設全景報告》系列專訪內容
「我的工作有相當一部分時間是在出差的。」
這位剛剛畢業於哥倫比亞大學的90後、第四範式數據智能部最年輕的數據科學家王昱森如是向大數據文摘記者描述他的工作狀態。
「我們會直接走入客戶公司,了解他們的運營模式,有點像諮詢。這也是我最喜歡第四範式的地方,給數據科學家的工作任務和美國那邊的定位很類似,偏應用端,不會做太多R&D(研發)的工作。」
環顧四周,裝修簡約的開放式辦公室,配上鞦韆椅、高腳桌,隨處可見免費小零食。走進第四範式,你會自然而然地聯想到「極客文化」、「工程師文化」,聯想到Facebook,Google等以人性化辦公著稱的科技公司。
而眼前這位數據科學的一番話,卻讓我們覺得,第四範式的數據科學家們似乎與我們傳統印象中以技術為主,常年坐辦公室調參、做研發的「科學家」有所不同。
你何時見過每個月都要出差幾次的「科學家」呢?
暴走的數據科學家與「消失」的研發團隊
「將來的數據科學家,應該每個人都有一個助手,甚至是有一支龐大的軍隊。這個龐大的軍隊不吃糧草,只吃數據,數據科學家負責攻城略地就好了。」
在與第四範式聯合創始人、首席架構師胡時偉的訪談中,他進一步肯定了第四範式對數據科學家業務能力的重視。「對於我們的數據科學家,不僅要理解演算法,更重要的是要求他們有對業務的理解能力和溝通能力,對業務有敏感度。」
在這家定位為「人工智慧技術與服務提供商」的公司,胡時偉口中的數據科學家的時間與精力分配,與我們的固有認知存在較大差異。在過去,如果一個數據科學家一天工作8小時,那麼可能有超過6個小時他是在做數據準備、模型調參等較為繁瑣的工作。而在第四範式,數據科學家每天這類工作可能只佔用不到2個小時,剩下的大量時間都用在解決實際業務問題上。從6個小時到2個小時,當中似乎省掉了一整個研發團隊所需承擔的工作。
那麼在第四範式,究竟是誰在負責數據準備、模型調參呢?
接手這個「消失」的研發團隊職責的,是第四範式自主研發的一個AI應用者開發平台--「第四範式·先知」平台。
「傳統來講一個數據科學家,他需要一些編程的經驗,需要一些系統的經驗,需要一些數學的理論支持,同時還要會用一些工具對數據處理,然後是業務知識。縱觀其整個工作中,大量繁重的工作其實與業務無關。我們創立第四範式的時候就發現了這個問題:跟業務無關的工作,其實是可以用產品的方式解決的。」
胡時偉所描述的現象可以被歸結為「進入數據科學的門檻太高」的問題。Google開發的Tensorflow已大大降低了機器學習的入門門檻,數據科學家們不再需要自行實現艱深複雜的機器學習深度學習演算法。
「但Tensorflow主要是面向演算法研究者,需要對數學與機器學習有比較深的理解、以及具備較強的編程能力。」第四範式想要把這個門檻放得再低一些——讓科學家只需要專註於解決業務問題,帶著這些功能封裝起來的「軍團」,跑到了業務第一線。
給業務高手配一個技術工具?
還是給技術專家配一個業務顧問
給業務高手配一個技術工具?還是給技術專家配一個業務顧問?這是目前人工智慧、數據科學領域一直在爭論的一個難題。
一方面,工程師背景較強的團隊往往會認為,技術能力,例如對機器學習演算法的了解,是AI人才的關鍵技能,數據科學所需要的專業技能則能通過在與客戶的溝通中快速學習到;而另一方面,傳統上並非以工程師背景為人所知的團隊,例如城市規劃團隊,則認為業務知識需要多年的積累,而編程知識、演算法知識則可以被快速獲得。
工程背景強悍的第四範式,選擇了給業務高手配一個AI平台工具。胡時偉認為,給業務高手配一個技術工具不僅僅是第四範式的產品開發模式,也是未來實現「人人都成為數據科學家」的關鍵。
在先知的定位中,數據團隊及業務專家都是使用者。今年上半年,第四範式舉行了一場基於先知的建模比賽,參賽選手是離機器學習比較遠的行政、商務員工,兩周的培訓之後有超過70%的參賽組合AUC成績(衡量模型效果的指標)超過0.8,達到成熟的數據科學家水平。
在胡時偉帶領的先知技術團隊的規劃中,這個門檻還將繼續降低。「我們的願景是『AI for everyone』,就是說讓大家都能夠用到這個新的(數據科學、人工智慧領域的)技術。」
「演算法和架構的能力可以被產品化,而在業務能力上,AI不會消滅行業。」胡時偉篤定地回答這個問題。他從「AI的五個先決條件」為我們解釋了他們所作選擇背後的原因。
他認為,企業實現AI化,需要滿足五大核心要素:
第一個是邊界清晰的問題定義。這個說的就是業務方向。這個特別重要,問題目標都錯了,你跑一百米、一千米,也達不到你的目標。
第二個是高質量、有意義的過程數據。這個其實也是跟業務有關係的,這回答的是最重要的一個問題:我該收集什麼數據?那這個問題的答案肯定是從業務來,不是從演算法來的。
第三個是持續不斷的反饋。胡時偉指出,光有過程數據是遠不夠的。以下圍棋為例,光知道棋譜,不知道最後誰贏誰輸,是學不會圍棋的。
除此之外,還需要有演算法能力和高性能的計算能力。在機器學習的實際業務場景中,動輒數十億級別的數據樣本,給計算框架帶來嚴峻考驗,在這樣的數據規模上即便是簡單的邏輯回歸模型,也會變成一個非常困難的問題,因此企業在計算能力上的投入將是巨大的。
胡時偉指出,演算法能力和高性能的計算能力這兩個技術問題,是會隨著高性能的機器學習平台的普及和硬體的提升而逐步解決的。而前面的三個問題,是業務問題、社會問題,是需要人去解決的。
公司從數據化到AI化的轉變
為時過早嗎?
目前,很多傳統企業已開始考慮向AI化轉型,但事實上它們中的很多仍然處在公司運營數據化初級階段,這些公司普遍有這樣的疑惑:現在考慮AI化是否為時過早?而企業AI化又該走哪條路?該將業務外包給AI諮詢公司?求助第三方AI平台?還是自己開發一套AI平台?
在胡時偉看來,企業現在考慮AI化絕不算早,實現AI化所需要的數據要從現在開始攢起。大多數公司不像百度、google這種互聯網公司,擁有充足的數據積累。在更多的公司、更多的場景中,AI並不是想開始就能開始的。「未來的企業競爭相當程度上是數據資產的競爭,兵馬未動糧草先行,儘早解決數據的問題,這並不是操之過急、而是勢在必行的事情。」
而關於三種不同的公司AI化方案,胡時偉認為,這其實是同一種AI化方案的三個步驟。
「單純的諮詢公司往往不具備核心的產品能力,即使是能夠給出正確的思路,企業也無法能夠真正得到效果。」
胡時偉認為,企業老闆通過諮詢或是學習的方式能對AI有一個正確的認識。「我覺得一個企業的經營者、決策者是對這個企業業務的提升最了解的人,他自己先要成為一個機器學習應用方面的行家,但是他不用成為演算法專家。他要知道業務在新的時代下,在高維對高維的直接反饋的情況下,會變成什麼樣子,這個是很重要的。」
在樹立了對AI的正確觀念與期望之後,攢夠了AI化所需的數據之後,企業可以選擇進一步組建起自己的數據團隊,或者通過第三方平台實現AI化。
而至於自建平台,胡時偉則認為並不適用大多數想要實現AI化的公司。「在沒有機器學習平台之前,一些有資源儲備的大公司會自建平台。但其實到了現在這個階段,隨著第三方平台的成熟,公司可以引入平台、以比較合理的投入高效獲得AI帶來的收益,何樂而不為呢?」
給AI行業的新人的建議:
找到這個行業真正的金子
「不著急,不跟風;最關鍵的還是要說怎麼能去解決實際的問題」
胡時偉也給想進入AI行業,或是初步進入AI行業的新人提了幾個建議。
對於學生來說,沒有那麼多的機會接觸到實際應用,那麼就要把AI的方法論搞清楚。「不著急,不跟風。要知道機器學習為什麼產生效果,而不是說我下載一個代碼覺得產生效果了,就覺得可以了。」
對於AI從業者來說,一定要關注目標導向。在問題定位清楚、提升空間分析完備之前,最好不要就全身心投入到模型調試的工作中去。前期要更多的關心這個模型是不是能解決企業的實際問題,或者是企業解決該問題的數據完備程度是否達到等。
「對於企業來說,目標導向就是你不需要去了解機器背後使用了什麼演算法、架構,就能享受到大數據驅動所帶來的價值提升。」胡時偉如是說。
如果你對我們感興趣,請在這裡申請先知平台:https://prophet.4paradigm.com
AI FOR EVERYONE
推薦閱讀: