被谷歌收購後,改變很大 | 獨家專訪Kaggle華人「主考官」甘志雯
在數據科學(Data Science)領域,Kaggle 可以稱得上是一座人人都想挑戰的高峰。今年 3 月, Google 在自家 Cloud Nest 大會上,由 Google 雲端人工智慧兼機器學習首席科學家李飛飛正式宣布收購 Kaggle。消息一出,立刻引起整個數據科學界的熱烈討論。
不難猜想, Google 想要做的是透過 Kaggle 提升在數據科學、機器學習方面的影響力,進一步還可以擴大 Google Cloud 業務,強化發展人工智慧所需的競爭力,同時吸引眾多優秀人才。
Kaggle 成立於 2010 年,是一個集合社群、競賽、用數據解決問題三個核心於一身的平台。不論是企業、某個領域的研究組織、甚至是政府機構,都可以把數據集(dataset)跟想要解決的問題丟上去,請數據專家來幫忙解答。
從另一個角度來看,Kaggle 上聚集了眾多對機器學習、人工智慧有興趣的人,包括數據科學家、統計高手、工程師或者是學生,他們利用數據採礦、深度學習、統計等方式搭建出解答問題的模型或演算法,勝出者就有機會獲得禮品、獎金或是工作機會,當然也有不少參加比賽的人是純粹出自興趣。
例如,全球最大衛星影像公司 Planet,主要是透過衛星影像監控亞馬遜雨林的變化,但他們發現還是有些問題無解,例如無法分辨雨林的減少是人為造成還是自然因素,所以在 Kaggle 上舉辦比賽,希望可以有更好的演算法來保護亞馬遜雨林,吸引了不少關注生態議題的人參與。
另外,美國國家海洋和大氣管理局(NOAA)阿拉斯加漁業科學中心利用飛機空拍與定點攝影機,長期觀察阿留申群島上的海獅數量,前陣子就在 Kaggle 上辦了一個數海獅數量的比賽,要選手利用照片算出五大類海獅的數量,計算結果最接近實際數量者獲得冠軍,最後成功摘下冠軍的是來自台灣的 outrunner。
十分低調的 outrunner 對DT君表示, Kaggle 是一個能吸引人進一步學習的平台,他透過參加比賽的方式研究深度學習、目標識別等,加上他個人喜歡自然生態,如果能透過數據科學幫助生態環境的比賽往往都能吸引他參與,除了數海獅之外,他也分別在大自然漁業監測大賽和亞馬遜雨林的比賽奪下銀牌和銅牌。
正因為 Kaggle 上高手雲集,吸引不少大型企業、機構都到此舉辦比賽,比如Google、Facebook、Airbnb、沃爾瑪、Benz、Bosch、英特爾、西班牙國際銀行(Santander)、歐洲量子物理研究所(CERN)等,而且獎金額度更已有突破百萬美元等級的案例。
近期的例子就有美國知名線上房地產資訊平台 Zillow 的 120 萬美元獎金,希望優化現有的房價預測模型。美國國土安全部(DHS)更大手筆拋出高達 150 萬美元的競賽獎金,尋找高手以協助他們處理機場安全檢查的問題,因為美國交通安全管理局(TSA)每天得檢查超過 200 萬人次,但 DHS 發現既有演算法有高錯誤警報率的問題,他們除了要求掃描設備供應商升級演算法,更跑到 Kaggle 向來自全球的數據科學家求救。
圖丨Kaggle上獎金排名前五的競賽
Kaggle 創始人 Anthony Goldbloom 在澳洲墨爾本大學畢業後,曾經在《經濟學人》雜誌當過實習記者,之後進入澳洲聯邦政府財政部(Australian Treasury)、澳洲儲備銀行(RBA)擔任經濟計量學家。當時他就預見數據科學將在未來扮演重要的角色,就在澳洲曾建立了一個數據科學家的線上社群。但他心想,為何不把數據開放,讓大家通過比賽的方式找到最好的演算法?
圖丨Kaggle 創始人 Anthony Goldbloom
所以,他把公司搬到矽谷從而創立了 Kaggle,依靠社群成功累積了龐大的用戶, Goldbloom 日前接受澳洲媒體採訪時表示,「Kaggle 今日已經擁有一百萬用戶,未來幾年還會成長十倍甚至百倍,因為這個領域的人才需求缺口還很大。」他曾被評為 2013 年《麻省理工科技評論》全球35歲以下青年科技創新人士,而 Kaggle 在今年加入 Google,更是近年創業領域的成功範例。
怎麼出考題?
然而,想要參與到 Kaggle 的比賽中卻並非易事,因為一道道挑戰題目都難度極高,不少中國的數據專家都參加過這些競賽,而且成績都非常好。
在 Kaggle 選手排行榜上(依照選手比賽成績),目前排名全球第五的 Eureka 就是來自中國。據了解,在 Kaggle 內部有一個依照比賽成果的國家排名,中國就在前三名之內。
不過,在背後設計競賽考題的人又是誰?DT 君獨家專訪了 Kaggle 數據科學家甘志雯(Wendy Kan)。
圖丨甘志雯
一頭長直發,作風乾練,是甘志雯給人的第一眼印象。從台灣的清華大學電機工程碩士畢業後,她跑到美國繼續念書,而且還轉換專業,到德州大學奧斯丁分校攻讀生物醫學工程博士,她笑說:「剛去美國時,考試都要帶電子辭典」,不過儘管初期辛苦,但她始終很清楚知道自己的目標:「換專業是要讓自己變得更強,被丟到全新的領域就只能往前沖。」
博士班畢業後,甘志雯先進入 GE 旗下專門負責研發跟創新的 GE Global Research 擔任生物醫學工程師,幫忙設計公司內部使用的一套軟體,為從事癌症研究的同事們提供更好的影像辨識軟體,來偵測癌症細胞不同階段的變化。之後,她又進入知名生物技術公司基因泰克負責後端軟體開發,直到三年多年她加入了 Kaggle,成為 Kaggle 的數據科學家。
圖丨甘志雯在演講
Kaggle 的數據科學家要做什麼?「我的工作就是負責設計演算法的比賽,把客戶給的數據快速整理成可以上架到 Kaggle 平台,簡單來說就是出比賽考題」,甘志雯簡單扼要地說明她的工作。乍聽之下好像很簡單,但其實卻是冗長的過程。
舉例來說,當企業或機構單位想要在 Kaggle 舉辦比賽,會先接觸到 Kaggle 類似產品經理角色的人員展開初步溝通,合作共識達成後,就會開始由數據科學家接手。他們與企業溝通,理解對方想要解決什麼樣的問題、擁有什麼樣的數據、怎麼衡量模型的效益、評價指標有哪些等等。
所以客戶會將龐大的數據交給甘志雯,她必須在很短的時間內熟悉這些數據,並且設計出適合這份數據的比賽規則和目標。
但她經常會遇到客戶說:「這些數據很機密,但我又很想辦這比賽,怎麼辦?」所以就要得幫他們想出適當的方法。直到雙方都認同後,就會把數據整合為比較乾淨的模式,也就是數據清理(Data Cleansing),去除錯誤或不一致的數據。最後再把這些數據放到 Kaggle 平台上讓使用者取用。一般 Kaggle 上的比賽賽程最多是 2~3 個月,參賽者必須在期間內遞交自己設計的演算法。
但因為客戶來自各行各業,每一家公司的數據政策跟技術能力落差非常大。一般來說,如果客戶技術水準高,有很強的數據科學家,甘志雯就會提供 Kaggle 的準則請對方把數據弄乾凈,但有些客戶沒有這些能力,這時就得花費許多時間協助,經常得來來回回溝通好幾次。據了解,如果客戶需要 Kaggle 人員幫忙清理數據,一小時計費 200~300 美元。
「這工作就很像去別人家,把他們的衣櫃搞清楚,有人的衣櫃很整齊,有人亂七八糟,Kaggle 協助你把前面一半到三分之二的路走好。」甘志雯打了一個有趣的比方。所以數據科學家不只是懂工具、懂邏輯,好的溝通能力同樣很重要,而且投入時間並不是每次都能開花結果。
前陣子就發生了一個案例,一個關注海洋生態的環保機構找上 Kaggle,希望能開發一個演算法可以取代現有的人工標記方式,甘志雯帶著客戶一起做,從拿到數據到整理就花了差不多兩個月的時間。一切準備就緒後,才發現客戶先前在某一個網站上就已經曾公開所有的數據,所有人都可以取得,但根據規範,參賽者必須使用 Kaggle 所提供的數據集來訓練模型,為了維護競賽的公平性,因此客戶必須選擇把網站的數據撤下,或是再搜集新的數據來做比賽,因此這個案子只能臨時喊停。
Kaggle 被納入 Google
把時間拉回到今年初,那時甘志雯正接下一個重要的案子,就是與 YouTube 合作舉辦一場視頻分類比賽。
在 Google 機器感知研究中心(Machine Perception Research)底下有一個視頻理解(Video Understanding)小組,主要的任務是建立大規模的計算機視覺和視頻理解系統,好讓 YouTube 的使用者可以更簡單的找到一些很棒的視頻內容,因此他們在去年 9 月公布了 YouTube-8M,那是一個包含了 800 萬個 YouTube 影片、合計影片時數超過 50 萬小時超大規模、帶有標記的影像數據集,讓開發者可以用來訓練機器學習的模型。而 Kaggle 與 YouTube 合辦的這場比賽就是希望挑戰者利用 YouTube-8M 的數據,開發出能夠正確指派標籤的分類演算法。
圖丨YouTube-8M
甘志雯回憶,這場比賽是一個企業界跟社群建立起非常好的互動關係的案例, YouTube 他們本身的技術就已經走在很前面, 當時他們內部設定預估模型準確度分數(Leader Borad score,LB score)的基準(benchmark)是在 0.78,不過,社群里出現很多好的想法,比到一半就有參賽者的 LB score 來到了 0.8,大家持續來回切磋,最後獲得第一名的分數是在 0.849。這一種出於善意交流的態度,激勵彼此一起往前走,這也是 Kaggle 的真締。
不過,她也透露了一個小故事,就是在她接這個專案一個月後,聽到公司創始人說他們要被 Google 買了,「他對我說,這個跟 YouTube 的合作案你千萬不能搞砸!」儘管公司被收購,但並非所有人都可以直接成為 Google 員工,所以「當同事都開始準備跟 Google 面試,我沒有時間準備,因為要弄 YouTube 比賽,當時真的很想哭。」她開玩笑的說。
圖丨李飛飛在 Cloud Nest 大會上宣布收購 Kaggle 的消息
今年三月,李飛飛宣布 Google 收購 Kaggle,傳言成了真實的交易,沒有時間準備面試的甘志雯,現在成了 Google 龐大體系的一分子。嫁入豪門後的 Kaggle 會有什麼改變嗎?「這個問題常常被問,對用戶來說,不會看到有改變,都是獨立的平台,這是當初準備賣的時候 Google 給予的保證」,她說。
不過,對員工而言改變卻很大。以前的 Kaggle 辦公室位在日常的公寓里,裡頭兩個房間、兩間廁所,被買了之後,Google 替他們退租了,Kaggle 團隊搬進了 Google 辦公室工作。更重要的是「資源變很多」,不論是可運用的運算資源或是 Google 內部跨團隊的專案合作,甚至是更遠大的目標。
「我們必須降低進入 AI 領域的門檻,讓更多開發者社群、用戶和企業使用 AI,進而滿足不同的需求。Kaggle 加入 Google,我們可以加速這一個使命」,這是李飛飛在 Google Cloud 博客寫下的一段話,Kaggle 在社群累積了龐大的用戶,而且不乏願意分享心得、代碼、解決方案的高手,讓更多的人可以學到知識及技能,「有助 AI 民主化」是 Google 看中 Kaggle 的原因,也是那個更大的目標。
對於身為一個出考題的人,在採訪時 DT 君問她:有沒有什麼可以在 Kaggle 贏高分的秘技?甘志雯不改酷酷本色的說,「多學, 就算你很有經驗也不一定會贏。」 多參加比賽、多在 Kaggla 或社群平台與其他人交流,另外網路上有不少課程可以利用,多上且多聽。
鼓勵女生勇闖數據科學領域
在科技產業,女性一直相對少數,不過近幾年在數據科學領域女性的重量級人物越來越多,產業界里除了華人圈比較熟悉的李飛飛,還有亞馬遜首席科學家 Animashree Anandkumar、商業數據分析軟體公司 SAS Institute 全球副總裁 Jill Dyche、Netflix 科學及演算法副總裁 Caitlin Smallwood、AI 新創公司 Nara Logics 首席執行官 Jana Eggers 等。
圖丨亞馬遜首席科學家 Animashree Anandkumar
今年三月,在斯坦福大學舉辦的女性數據科學會議(The Women in Data Science Conference,WiDS)上,早期臨床試驗的數據科學平台 Litmus Health 聯合創始人 Daphne Kis 就講,「數據將會擴大女性領導人的社會影響力。」她認為,過去大部分的大數據決策工作都保留給電腦科學家,但我們正從大數據轉向數據科學,目前全球統計專業畢業生有40%為女性,這是一個很好的指標,為女性打開了大門。
身為相對少數的女性數據科學家,甘志雯同樣很鼓勵女生積极參与相關社群,象是鼓勵女生學寫 R 語言的全球 R-Ladies 社群,在台灣舉辦女生參與 Kaggle 的活動時,甘志雯還特地通過視頻鼓勵大家,同時她也正在籌劃明年 WIDS 相關活動。
圖丨全球 R-Ladies 社群的發展
她認為,數據科學一直都存在於日常生活中,過去,可能是統計學家或IT人員才會使用,不過近年隨著科技的進步,電腦的計算能力進步很多,再加之網路的普及,讓大家比以前更容易地獲取數據並進行分析。
就像有人在網上隨便講一句話,其他人就可以迅速找到資料來證明所說的東西是對的還是錯的,每個人的能力都憑藉網路得到了極大的提升。而對於甘志雯來說,這也是數據科學對她的意義,「如果你對世界有好奇心,想要回答問題,就加入吧!」
推薦閱讀:
※OPPO和VIVO售後的優勢到底在哪?——由vivo X20和堅果pro2的選擇問題說起
※被低估的AirPods以及未來的智能耳機市場
※薅資本主義羊毛,用Google免費GPU
TAG:科技 |