數據科學,誰說女性不可以?| 數據科學50人·萬菁

數據科學,誰說女性不可以?| 數據科學50人·萬菁

來自專欄 DT財經5 人贊了文章

作者 | 程一祥

題圖 | 網 絡

萬菁,State Farm (全美最大保險與金融服務公司之一)首席數據科學家(Principle Data Scientist),美國普渡大學計算機專業博士。她在計算機視覺、深度學習、大數據處理、醫學圖像處理等領域有十多年的研究和從業經驗。她還是科技女性運動的積極倡導者,並想用自己的故事告訴大家——數據科學這件事兒,你也可以。

達拉斯夏天炎熱的天氣,有時候會讓萬菁想起自己的故鄉南昌。在美國定居並已經育有孩子的她,如今在工作的時候,還是會時不時地想起過去的事,把二十年前的自己和現在自己做一做對比。

從南昌到上海,再到達拉斯,如今已經是 State Farm 首席數據科學家(Principle Data Scientist)的萬菁,回憶起過往,也常常感嘆,自己與數據科學結緣的那些日子。

▍失去了分數,是一切的開始

不像很多數據科學家很小就知道了自己追求的方向,中學時代的萬菁,對未來其實沒有什麼目標。

她是人們眼中典型的「別人家的孩子」,學習成績優異,讓父母老師放心,是被老師認為要上清華北大的「種子選手」,從小到大各種考試都是「前三名」。在萬菁眼中,她想的也只是學習,「我當時太要強了,我一定要考第一名,考第二第三名我都覺得是不光榮的,沒有意義。」

雖然每一門成績都很好,但萬菁其實並沒有想過太多成績背後的意義。「我喜歡什麼?未來要做什麼?這在當時都是沒有想過的。」這位AB型血的處女座女生,強迫症式地把自己框在了成績的怪圈裡,怎麼也走不出來,直到高考那決定命運的兩天。

老天與她開了個玩笑。

「那是我最失敗的一次考試」,萬菁回憶說,「第一門沒有考好,然後我的心理防線就崩塌了。」

最後成績出來,萬菁差了目標十萬八千里。上清華北大是沒有希望了,她最後隨了父母的建議,上了南昌本地的大學。「沒辦法去北京了」,萬菁說到。

高考的失利,反倒讓她放下了自己對生活的得失心。「因為你知道一個人從一個學習的高峰,突然從雲端跌落谷底時,可能就會重新審視自己的人生。」萬菁覺得自己之前都太要強了,鑽到了成績的牛角尖,以至於忽略了自己內心的想法。

進入大學以後,她在課堂之外花了更多的時間,打辯論、做社團、忙活動。視野開闊後,萬菁開始更多地思考自己的興趣所在。她大學的專業是當時最火的電子工程,課程要求既需要去焊接電路板,做硬體的內容;又需要編程,做軟體的活兒。

「那時候學C++編程的時候,怎麼說呢....我覺得很享受,很享受這種邏輯思考、一步步寫編程語言的感覺。」萬菁說到。而且在這個男生居多的專業里,萬菁的成績依舊排在前列,她曾代表學校獲得大學生數學建模競賽的全國一等獎,還拿下了江西省電子創新科技競賽二等獎等榮譽。

「大家往往認為,在邏輯性強的領域,男生普遍比女生做得好,但其實很多時候這種潛意識的看法並不正確。」在大學期間,萬菁一直在專業里保持著優異的成績,而且她越發痴迷於邏輯性強的數學建模和軟體編程科學。

強調邏輯、保持嚴謹,多年後回想起來,萬菁覺得這是她與「數據科學」產生交集的起點。雖然在考場上失掉了分數,但對萬菁自己來說,其實是讓她找到了未來二十年要走的方向,用她自己的話講,「開拓了我的想法和思路」。

萬菁本科畢業後,恰逢中國通訊市場的繁榮時期,電子工程專業非常吃香。她的很多同學都加入了華為、中興、思科等大的通訊企業,拿了高薪。萬菁卻去江西財經大學當了一名高校老師——「因為我要考研,我一定要去更高的平台上,看看世界的樣子。」

▍二維碼的遺憾

經過兩年的準備,萬菁研究生考入了上海交通大學的模式識別與智能系統專業。

「其實這個專業就是『數據科學』,它研究的課題主要是醫學影像處理、人臉識別、指紋識別、虹膜識別等等,但是那時候我並不知道,它只是一個很小的交叉專業,我當時就是全憑興趣。」萬菁覺得這冥冥之中也有些緣分,自己歪打正著地選擇了現在的大熱行業。

萬菁很幸運,她的研究生導師是上交圖像處理與模式識別研究所時任所長施鵬飛教授。施老是國內最早研究人工智慧領域的專家之一,在數字圖象處理、機器人視覺、智能技術與系統等專業領域都有卓越貢獻,他在1993年出版的《人工智慧教程》是國內第一批 AI 教學領域的著作。

在施老的指導下,萬菁開始了自己在上海的研究生生活,研究領域主要集中在圖像處理、虹膜識別,以及二維碼。

「我現在總說我當年錯過了一個成為百萬富翁的機會」,萬菁笑著談起了自己那段研究二維碼的經歷,頗有遺憾地感慨自己錯過了一個絕佳的創業窗口。「我是中國最早幾批研究二維條碼的人,當年做完,發了paper就出國了,根本沒有想那麼多。過了幾年一看,怎麼滿大街都是我當時研究的QR code啊,真的是錯過了一個創業機會。」

隨著移動支付的普及,現在大家生活中都已經很熟悉二維碼了。買東西時移動支付,微信添加好友,掃一個共享單車、共享充電寶,搶一個手機紅包......二維碼在我們生活中如今已經無處不在了。不誇張地說,以共享經濟為代表的移動互聯網浪潮,就是建立在二維碼這種安全、便利的編解碼技術之上的。但在二十年前,這都還是鏡花水月般的存在。

大家現在所熟悉的QR code,其實只是二維碼的一種碼制,在二維碼近四十年的歷史上,還出現過眾多其他碼制。國外早在上個世紀八十年大就開始了對二維碼的研究探索,中國起步稍晚,到1993年,中國物品編碼中心才對PDF417、QR code、Data Matrix等幾種常見碼制二維碼的技術規範進行了翻譯和跟蹤研究。

(圖片說明:QR code 二維碼的基本結構;圖片來源:CSDN)

QR code碼由日本DW公司在1994年發明。QR是英文 「Quick Response」的縮寫,代表「快速反應」的意思,源自發明者希望其內容可以快速被解碼的初衷。萬菁研究的二維碼就是QR code,她很幸用,QR code後來成為了中國的主流二維碼模式。與此同時,她還有一位同學在研究另一種碼制 Data Matrix,不過這些碼制在後來都逐漸被淘汰,退出了二維碼的主流舞台。

「那個時候,中國市場上還沒有什麼系統介紹 QR code 編解碼內容的資料,我的任務是用C++編一套QR code的編解碼系統,能對輸入的文本內容編碼成QR code圖像,同時可對圖片中的QR code解碼成可讀文本。」萬菁花了半年的時間,經常跑到上海專利局,查閱編碼的資料,最後成功實現了QR code的編解碼系統(一個可互動式App),並寫出了自己的研究生畢業論文。「這篇論文後來成為了國內 QR code 領域被引用次數非常多的一篇文章。」萬菁自豪地說到。

雖然有點遺憾,不過某種程度上,二維碼的這段插曲,其實並不是萬菁在數據科學道路上的主要方向。研究生畢業後,她放棄了在上交直博的機會,來到了美國普渡大學,選擇了醫學影像分析方向繼續深造。

▍搭上了數據時代的高速列車

博士研究階段是萬菁逐漸深入轉向數據科學的關鍵時期。

「那個時候有一個宏偉的目標,我覺得去做醫學影像分析很有意義,能幫助很多受疾病困擾的人進行早期疾病診斷。」萬菁覺得,自己所從事的數據科學真的有這種力量。普渡大學沒有醫學院,但萬菁很幸運地加入了在印第安納大學醫學院做醫學圖像研究的沈理教授的團隊,使得她能夠接觸第一手的醫學圖像數據,萬菁說,「從沈理教授那裡我學到了最嚴謹同時又富有創造力的博士研究工作」。

在美國,胎兒酒精綜合征是一種困擾很多孕期媽媽的常見問題。萬菁說,有些母親不注重個人生活習慣,在懷孕後還會飲酒,最終會導致生出的孩子出現身體機能上的缺陷。「有些胎兒或小嬰兒面部大小發育受限,有些嘴唇很薄,有些沒有鼻樑,在常規的檢查中,醫生很難發現胎兒或小嬰兒的面部異常情況,但是如果用圖像進行三維分析的話,我們就可以幫助醫生更早地發現疾病,及時提醒孕婦,並進行有針對性的早期干預。」

(圖片說明:美國的醫療行業早在近二十年前,就開始使用一些圖像分析技術來幫助醫生分析病情。圖為電腦輔助X光片診斷處理。圖片來源:視覺中國)

萬菁所在的團隊主要通過對圖像進行三維還原重建,來比對分析胎兒的發育情況。在這個過程中,他們要處理的圖像數據必須轉化為網格式的分析元素,「如果把每張三維圖片劃分成一個一個小方塊,那麼每個圖片都有10^9 的信息量,我們還有大量的圖片,這毫無疑問是『大數據』了」,萬菁說到。

在對圖像進行比對的時候,他們還要建立相關的分類器,這就需要引入機器學習領域的知識。到博士後期,萬菁已經把研究方向轉移到了機器學習上,開始思考如何在醫療影像分析中使用 AI 技術來輔助醫生進行診斷。

就這樣,萬菁搭上了開往大數據時代的高速列車。

就在她讀博期間,「大數據」的概念開始席捲美國主流社會。經過多年的數據積累,不僅在醫學領域,金融、電商、互聯網等行業都紛紛湧現「數據科學家」、「數據分析師」等職位,各大公司開始越來越重視數據在行業中的應用。2013年,舍恩伯格的《大數據時代》傳入中國,也開啟了數據科學在中國發展的黃金時代。

2014年,博士畢業的萬菁加入了全球最大的旅遊數據公司之一Sabre,擔任數據分析師。在Sabre,萬菁最大的收穫是真正認識了互聯網的「大數據」——Sabre每秒至少發生8000筆交易,萬菁的工作就是用數據科學的方法去檢測這些交易,發現其中的問題或者市場趨勢,為市場部門提供數據洞察。

不過Sabre的工作與萬菁的期待還是有些距離,她並不滿足於只做一些後端的數據挖掘,更渴望做一些前沿的研究項目。一次偶然的機會,讓她加入了美國最大的汽車房屋保險公司 State Farm,並一直工作至今。

(圖片說明:State Farm在達拉斯的辦公大樓,這距離萬菁的家只有十幾分鐘的開車距離;圖片來源:State Farm官網)

「當時獵頭找到我,告訴State Farm目前在使用GPU做很多大規模數據運算,既用到了圖像處理技術,還要兼顧很多大數據計算問題,我就覺得非常適合我的背景,而且他們的公司就在達拉斯,離我的住處很近,我想為什麼不試一試呢?」

在State Farm團隊,他們通過數據科學技術,提高了很多保險業務的自動化程度。比如他們運用圖像處理技術極大簡化了車輛的理賠程序。過去很多需要理賠員到現場的保險事故,以後只需要通過用戶拍照就可以機器鑒定,快速理賠。不僅如此,他們還將無人機也應用到了測定理賠中,例如在測定房屋保險時,由無人機對房屋進行巡航拍照,再交由被海量數據訓練過的機器處理,最終實現自動化裁定、理賠的過程。

萬菁認為,國內如今很多公司也在建立數據科學團隊,但卻往往處理不好商業化落地的問題,其本質是因為他們對數據科學團隊的管理不夠有效率。在State Farm,萬菁的團隊通常是以能直接帶來經濟利益的短期商業項目和具有商業遠見的長期研究項目相結合的方式,對數據科學團隊進行管理。

「我們對短期商業項目,會要求團隊像互聯網公司一樣實現敏捷開發,先出產品再不斷迭代;對於研究類項目,也是擯棄了過去的『瀑布』模式,採用敏捷開發的模式,先訂一個小目標或做小範圍數據建模,得到有效驗證後,再擴大目標或用更多的數據建模。這樣的模式既能讓公司高層領導看到短期內研究項目的結果(quick win, or quick fail),也能保證研究項目的可靠性和方向的正確性。」萬菁說到。

▍誰說女子不如男

前一段時間,全球最大的編程愛好者社區 GitHub 被微軟以75億美元收購,這條新聞在數據從業者的朋友圈裡也被討論得沸沸揚揚。GitHub 在坊間還有一個經常被網友們調侃的名字:全球最大的同性交友平台——更確切地說,是男性交友平台。

因為大家普遍默認,在計算機等數據科學領域,男性的數量確實佔據了主導地位。這一現象在中國的數據科學界更加常見,在人工智慧、自動駕駛、金融科技等數據科學主題的論壇上,你很難看到女性科學家的身影,在場的大多是男性科學家,他們侃侃而談著數據科學的未來,暢想著光明的商業場景。

於是,很多人開始覺得,是否在數據科學領域,女性真的不如男性?

萬菁並不這麼認為。「在我們公司,女性數據科學家的比例佔到了?, 團隊的VP也是女性。在數據分析師中,女性的數量更多。」在萬菁看來,在數據科學領域,女性絲毫不落下風。

「女性更注重細節,對待數據時更能找出其中蘊藏的價值;她們往往溝通能力也很強,在商業環境中能更高效地與人交流......這都是女性在數據科學界不應被忽視的理由。」

萬菁自己就是一個很好的案例。不論是在中國,還是美國 ,她所從事的研究領域,一直都是別人眼裡的「男性更有優勢」的學科,但這絲毫沒有影響她自己追求數據科學的態度。

(圖片說明:Woman in Tech 是一個全球性科技女性運動聯盟,她們鼓勵女性在科技領域追求事業的成功。她們常與科技公司合作,推動解決科技女性的職業發展問題,在Facebook、Twitter等社交網路平台具有廣泛的影響力;圖片來源:Women in Tech官網)

「我覺得有時候,這種對女性的偏見更多與教育因素有關。」萬菁告訴DT君,在美國,家長很小就會鼓勵孩子去嘗試不同學科的東西。公司會經常舉辦一些開放日的活動,或社區針對初高中生的職業女性交流論壇,讓小朋友了解社會中各種不同的工作究竟在做什麼,培養他們樹立自己的職業發展觀。

但中國的小朋友普遍缺乏這種教育環境。高中文理分科時,老師和家長往往會根據孩子當時的學習成績,來建議他學習文科或者理科;考大學選專業時又缺乏考慮孩子的興趣愛好。「很多女孩子可能因為理科成績不好,內心對數據科學產生抗拒,覺得自己不行,其實這都是沒有必要的。」萬菁認為,數據科學的世界要比高中的理科試卷大很多,這是分數沒法決定的。

谷歌雲人工智慧和機器學習首席科學家李飛飛曾多次在公開場合呼籲,數據科學的人才應該多元化,鼓勵女性在科學界承擔更多責任。

在數據科學的時代,人工智慧已經離我們的生活越來越近。但是機器並沒有獨立的價值觀,它的價值觀就是創造者的價值觀。那麼作為這些人工智慧的創造者們,數據科學家就顯得無比重要,他們要教會機器多元化、包容、公平公正,他們首先就需要讓自己變得多元化、包容、公平公正,這其中當然也包括性別。

萬菁最後說到,「看到我們的存在,其實已經說明這(數據科學家)是一個適合女性的職業,這會帶來一個正面的循環,從高層到基礎層,甚至到初中高中生。她們會覺得:『也許這是一個我也可以去做的事情』,然後又帶來更多的正面影響。那麼女性在數據科學行業,甚至是其他的科技行業裡面也會越來越多,會發展越來越好。」

▍數據俠門派

萬菁,State Farm 首席數據科學家(Principle Data Scientist),南昌大學電子工程專業學士上海交通大學模式識別與智能系統專業碩士,美國普渡大學計算機專業博士。她在計算機視覺、深度學習、大數據處理、醫學圖像處理等領域有十多年的研究和從業經驗。在國際期刊(如IEEE Transactions on Medical Imaging)和頂級學術會議(如 CVPR)等發表論文20餘篇。她的專長在於如何把數據科學落地化,如何提取數據中的商業價值為公司節省費用或者創造新的商業利益。她是科技女性運動的積極倡導者,也是社區建設的自願者和領導者,她期望的是數據科學和人工智慧在整個社區的普及。

▍數據科學50人

「數據科學50人」項目是DT財經旗下數據俠計劃重點內容產品,與數據科學領域KOL挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審並發布,第一財經數據科技及合作夥伴傾力支持。

▍加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。

推薦閱讀:

全國霧霾大數據,哪裡才是桃花源?
怎樣依託大數據信息採集做精準營銷
Python可視化與basemap數據地圖
數據分析基礎—1.2常用的數據分析指標和術語
BiliBili爬取數據簡單分析

TAG:數據科學 | 數據科學家 | 數據分析 |