【觀點】盤點對比美英與我國數據科學教育戰略、現狀

【觀點】盤點對比美英與我國數據科學教育戰略、現狀

來自專欄『DIY飛躍計劃』全球留學申請、生活

作者:數據派

歡迎原鏈接轉發,轉載請私信@留德華叫獸獲取信息,盜版必究。

敬請關注和擴散本專欄及同名公眾號,會邀請全球知名學者發布運籌學、人工智慧中優化理論等相關乾貨、知乎Live及行業動態:『運籌OR帷幄』大數據人工智慧時代的運籌學

如今,全球正在加速從IT時代邁向DT時代,越來越多的國家推出發展戰略,期望通過建立大數據競爭優勢,鞏固其在該領域的領先地位。在國家大數據戰略的推動下,數據產業得以迅速發展,同時對人才的需求也日益迫切。如何進行數據科學的學科建設、培養人才以滿足行業需求,成為了教育界面臨的一大挑戰,但也為該學科的發展提供了契機。

今天,我們將嘗試分析英美高校如何進行數據科學領域人才培養,解析數據科學專業人才的成長發展路徑,希望能為國內高校管理者和參與者提供一些啟發。

美國

1、美國領跑數據科學專業教育

在美國,數據科學專業是以數據分析學專業為基礎發展而來的,可追溯至2007年北卡羅來納州立大學率先設立的數據分析碩士學位。與統計學和計算機科學與技術等基礎學科不同的是,數據分析學進一步抽象了這些底層科學中的數據問題,連接了包括統計學和計算機科學在內的基礎學科與數據科學之間的空白,為數據科學這一新學科的出現奠定了直接基礎。

從「數據分析學」向「數據科學」的實質性過渡出現在2013年左右,比較有代表性的是紐約大學於2013年新開設的數據科學碩士專業。之後,包括加州大學伯克利分校、約翰·霍普金斯大學、華盛頓大學、在內的多個學校設立了數據科學專業。

據Datascience Community數據顯示,截至2017年5月,全球共有26個國家的356所高校開設了551個數據科學相關項目,其中美國高校開設的數據科學項目數量最多。數據顯示,全美有245所高校共開設425個數據科學項目,佔全球該類項目總量的77.1%。

在這些學校中,數據科學相關專業主要對應3類研究方向:

  • 商業數據分析方向
  • 計算機科學主修數據分析方向
  • 商業管理主修數據分析方向

由於數據科學這一領域具有專業交叉性的特點,在數據科學人才的培養上,學歷教育仍佔主導地位,在學歷教育項目中,又以研究生層次的項目最為普遍。

在研究生培養中,數據科學多作為某專業的細分方向。例如,斯坦福大學在統計學專業上設置了數據科學方向,要求申請者有修習數學和計算機基礎課程的經歷;南加州大學維特比工學院在研究生階段開設了計算機科學-數據科學方向,要求申請者獲得區域認可大學的工程、數學或自然科學本科學位。

在本科層次教育的項目上,數據科學多作為統計學院、計算機學院或商學院下的專業。

也有部分學校獨立設置了數據科學系。例如,伍斯特理工學院在數據科學系下,分別設置了數據科學的1個本科項目、2個研究生項目、1個博士項目和一個非學歷教育的課程認證。

另外,課程認證式的非學歷教育在數據科學領域的人才培養中也發揮著重要作用。很多數據科學項目在以課程認證的形式進行,多招收需要進行緊技能培訓或背景提升的在職人員。

2、具體項目舉例

許多美國大學會將數據科學與原有特色專業相結合,在本校具有優勢的領域中關注數據科學,並非常重視這一專業的實踐性。

以斯坦福大學為例,該學校的數據科學專業由統計系和計算與數學學院聯合開設,授予的學位為數據科學方向的統計學理學碩士。共開設有29門課程,分為以下5個模塊:

基礎課程模塊:數值線性代數、離散數學與演算法、優化論、工程中的隨機方法以及隨機演算法與概率分析;

  • 數據科學模塊:統計推理導論、回歸模型及方差分析導論、統計模型導論、現代應用統計學:學習以及現代應用統計學:數據挖掘;
  • 高級科學編程及高性能計算模塊,涉及的課程有高級科學編程、並行計算導論、分散式演算法與優化論、數值分析的並行方法、並行計算、並行計算機的架構及編程以及高級多核系統;
  • 專業選修模塊,設有以下課程:計算分子生物學中的表示與演算法、數據驅動型醫學、面向現代生物學的統計學、社會與信息網路分析、機器學習、面向視覺認知的卷積神經網路、海量數據集的挖掘、計算機圖形學、地理統計學、基於大數據的商務智能、人類神經影像學方法和數據計算範式;
  • 實戰模塊,包括Capstone項目和獨立學習項目。

斯坦福大學此專業的人才培養目標側重的是統計學家,而並非是數據科學家。其最突出的特點是將數據科學作為統計學的一個方向,將培養出面向數據科學的統計學家。因此,該專業與其他學校的數據科學專業不同,強調的是數據科學與統計學的深度融合。

英國

1、英國政府大力支持數據科學教育

去年,英國政府發布《2017年英國人工智慧產業發展報》(以下簡稱「報告」),指出「我們的願景是讓英國成為世界上最適合發展和部署人工智慧的國家」。作為AI發展的基礎要素,在大數據建設中,英國持續性投入大筆資金進行技術開發,包括在政府數據分析項目中展開大數據技術的應用,以高等學府為依託投資興辦大數據研究中心,帶動牛津大學、倫敦大學等著名高校開設以大數據為核心業務的專業等。

2015年,英國工程和物理科學委員會(EPSRC)聯合劍橋大學、愛丁堡大學、牛津大學、華威大學與倫敦大學學院這5所英國名校一起,出資4200萬美元成立了阿蘭·圖靈研究所,研究AI在國防安全、健康、計算技術、數據中心工程,以及金融和智能城市等領域的應用,並幫助培訓新一代數據科學家。此外,英國還建立了阿蘭數據研究集團、開放數據研究所、國家數據創新中心和皇家統計協會數據科學分部等。

在如此大環境下,數據科學專業已經從三、四年前的小眾專業成為競爭最激烈的專業之一,申請的人數很多,但是可供選擇的學校較少。因此,報告還指出,要加大教育投入,建議企業加大投入建立本科人才的培養程序;鼓勵現有本科人才繼續深造,通過一年期學習,將計算機和數據科學以外的人才培養成AI領域的研究生;吸引不同學科背景的研究生,到著名大學學習,為AI領域培養大批博士和博士後人才;開展網路課程教學,培育技術性勞動人才;在阿蘭·圖靈研究所下設圖靈AI工作夥伴,吸引全世界最好的相關人才,投入巨資讓他們在英國潛心研究。

2、具體項目舉例

下表列舉了幾所開設數據科學相關專業的英國高校。

在英國,不同大學開設的數據科學專業教育同樣側重點各有不同。縱觀英國G5名校,數據科學項目已不再只是理工科、商科學生的選擇目標,文科生也可以選擇相關專業進行學習,參與進數據革命的浪潮。例如,華威大學開設的兩個數據科學專業,大數據與數字期貨理學碩士項目,最大的特點是沒有學生背景要求,而大數據與定量方法專業則開設在國際政治學院旗下。該專業與傳統數據科學家不同,更加側重在政治學科領域核心以及行業領先的數據計量方法。

另外,英國高校十分重視與相關產業及其技術專家的聯繫,使學校的研究與產業發展同步,鼓勵學生在企業或政府的大數據實際應用中學習。

以倫敦城市大學為例,該學校的數據科學專業由數學、計算機與工程學院和計算機系聯合開設,授予的學位為數據科學理學碩士,其課程體系由核心模塊、選修模塊和綜合訓練課程3部分組成。每個模塊包括動手實驗室教程和課程作業。其中,核心模塊包括數據科學原理、機器學習、大數據、神經計算、可視分析學、研究方法與專業問題;選修課程有高級並發編程、高級資料庫、信息檢索、數據可視化、數字信號處理及音頻編程、雲計算、計算機視覺、軟體代理等。綜合訓練課程與其他學校不同,並非以小組形式完成,而是以學生在指導教師或合作企業的指導下獨立完成。選題要求必須為來自實際部門的真實數據及現實問題。

該專業的人才培養定位在數據科學家,特彆強調學生的「洞察」能力的培養,即從大規模數據中快速洞見有價值的、可以指導實際行動的「洞見」的能力。主要特色如下:

  • 重點培養學生的3C(Creative、Critical和Curious)精神,尤其是好奇心,通過掌握新技術來提升自己的職業競爭力。該專業的學員主要來自於經濟學、統計學和計算機科學專業;
  • 強調數據科學的三個要素,突出數據科學的跨學科性,開設課程涉及計算機科學、統計學、機器學習及實戰應用。此外,該學校特彆強調機器學習在數據科學中的重要地位,重視學生對機器學習和數據可視化的掌握和應用能力;
  • 強調實習的重要性,開設由PLU( Professional Liaison Unit)資助的專業實習項目,將學生派送到NHS、Facebook、亞馬遜、BBC的實際工作部門進行為期6個月的實習;
  • 重視產業真實數據及現實問題的處理能力。該學校設有個人大作業,要求學生綜合運用所學知識,選擇來自產業、學術或政府的真實數據,解決現實世界中存在的具體問題。

中國

1、數據科學專業全國大範圍開花

隨著「大數據」被納入國家戰略規劃,中國也加快布局數據科學教育的步伐。

在2014-2015年期間,多所國內知名高校首先採取設立「大數據研究院」的形式,從學校其他優勢專業或相關專業選拔研究員和學生,探索和規劃數據科學專業的未來發展。第一所建立研究院的是清華大學,其後西南交通大學,貴州大學,北京大學,中國人民大學等7所大學也相繼設立。

除了高校自身對於數據科學這一領域的探索外,各大互聯網企業也對數據科學領域人才培養給予了多方面的支持。2015年6,阿里雲攜手慧科教育集團,啟動了「阿里雲大學合作項目」(AUCP,.Aliyun university cooperation program),聯合高校開設雲計算與數據科學專業方向。通過產教融合的方式,阿里雲在AUCP中提供雲計算、大數據工程師以及生態圈夥伴等資源,培養下一代數據科學家。北京航空航天大學、浙江大學、復旦大學、上海交通大學、西安交通大學、南京大學、武漢大學,華南理工大學共8所高校,成為了阿里雲大學合作計劃的首批試點高校。據悉,該計劃將在未來三年,在全國100所高校完成專業課程開設,預計可培養認證5萬名雲計算和數據科學人才。

另外,全國各類高校、高職院校已陸續開始圍繞大數據專業建設展開研究並申報大數據專業。2016年2月,北京大學、對外經濟貿易大學和中南大學成為首批成功獲批設立「數據科學與大數據技術」本科新專業的高校;2017年3月,經教育部批准,第二批共32所高校成功申請「數據科學與大數據技術」本科專業;2018年3月,共有283所高校獲批「數據科學與大數據」專業。從申請資料看,國內數據科學專業是一門主要以統計學和計算機科學與技術專業為基礎建設的全新專業。數據科學專業已成為我國現階段高等教育的熱點問題之一。但是,建設什麼樣的專業以及如何建設該專業仍為各高校面臨的難點問題。

2、國內外數據科學教育的異同

相同點:

  • 國內人才培養模式同樣多元化

無論是單獨設立數據研究院或者將數據科學專業歸屬為某專業學科下面,國內數據科學 專業人才培養包括但不限於本科、研究生、課程認證等形式。

以清華大學為例,2015年,該校啟動國內首個基於混合式教育模式的學位項目——「數據科學與工程」專業碩士項目。該項目旨在培養數據存儲、運行監管、智能分析挖掘及戰略決策等依賴於大數據資源和平台的專門人才,匯聚了清華大學計算機科學與技術系、軟體學院、自動化系、交叉信息研究院等院系的知名教師,還將由研發一線專業人士講授企業案例課程,並與百度、阿里、騰訊等公司合作建立學生實踐基地。詳情了解清華數據科學研究院官網

  • 國內高校同樣會以優勢學科與數據科學相結合辦學

以人民大學統計與大數據研究院為例,設有數理統計、衛生與生物統計、計算統計、金融統計、大數據統計、數據挖掘和機器學習、應用統計等研究領域,致力於培養數據科學與統計學深度融合的統計學家。

不同點:

  • 從目前國內部分高校的培養方案可看出,其數據科學專業課程體系主要由計算機科學和統計學兩大學科領域的主幹課程組成,而對數據科學本身的關注不夠,並沒有開出數據科學專業的特色課程。需要注意的是,計算機科學和統計學是數據科學的理論基礎,而並非是數據科學特有的知識。
  • 從世界一流大學的數據科學課程設置看,數據科學專業並非是計算機科學和統計學的簡單拼湊,而更加突出的是數據科學本身——數據科學的基礎理論、數據加工、數據分析、數據計算、數據管理及數據產品開發等。
  • 從國內部分高校公布的數據科學專業課程體系看,一般均設有兩門基礎課程——統計學和機器學習,並直接將計算機科學和統計學專業的兩門課程照搬到數據科學這一新專業之中,甚至教學大綱都沒有做任何的改動。但是,從上述一流大學的課程設置看,數據科學專業中講解統計學和機器學習的方式與統計學和計算機科學等傳統學科不同。

以機器學習為例,華盛頓大學開設課程名為《數據科學家常用的統計機器學習(Statistical Machine Learning for Data Scientists)》,強調的是從數據科學視角講解統計學,突出的是數據科學與機器學習之間的關聯;

卡內基梅隆大學的課程名為《大數據集的機器學習(Machine Learning with Big Data Sets)》,強調的是面向大數據的機器學習。

紐約大學開設的課程名為《機器學習與計算統計學(Machine Learning and Computational Statistics) 》,強調的是機器學習與統計學的深層融合,而並非是二者的簡單拼湊。

目前,國內部分學校的數據科學專業的課程設計中僅強調技術和工程問題,而忽略了人文和管理問題。但是,從國外數據科學專業課程設計看,數據科學不僅是技術和工程的問題,而且還涉及人文、道德和法律的範疇。

例如:加州大學伯克利分校的課程《大數據中的人與價值(Behind the Data: Humans and Values)》;華盛頓大學的課程《以人為中心的數據科學(Human-Centered Data Science)》;哥倫比亞大學的課程《數據科學綜合訓練及倫理(Data Science Capstone & Ethics》。

結語

數據學科是一門實踐性極強的學科,其研究和應用均不能脫離具體領域,又必須涉及到該領域發展戰略、基礎設施、人力資源、政策、法律與文化環境等諸多因素。因此,數據科學需要解決的終極問題是將大數據放在一個完整的生態系統之中去認識與利用,從生態系統層次統籌和規劃,避免片面認識數據問題,進而推動數據、能源和物質之間的相互轉化。

從總體上看,數據科學的人才培養目的並不是數據工程師,而是數據科學家,尤其培養具有3C精神的數據科學家。高校如何加快對數據科學學科特徵的研究、培養「理論、實踐和精神為一體」的綜合性人才,並建立培養該專業人才的完整體系,將會成為國家在競爭「地球大數據」方面的軟實力。


如果你是運籌學/人工智慧碩博或在讀,請在下圖的公眾號後台留言:「加微信群」。系統會自動辨認你的關鍵字,並提示您進一步的加群要求和步驟,邀請您進全球運籌或AI學者群(群內學界、業界大佬雲集)。

同時我們有:【運籌學|優化愛好者】【供應鏈|物流】【人工智慧】【數據科學|分析】千人QQ群,想入群的小夥伴可以關注下方公眾號點擊「加入社區」按鈕,獲得入群傳送門。

學術界|工業界招聘、徵稿等信息免費發布,請見下圖:


推薦閱讀:

從微積分和線性代數角度看線性最小二乘原理
聚類演算法第三篇-層次聚類演算法Chameleon
哈佛大學數據科學專業解析
建築領域大數據分析[通過python爬取分析房價信息](第二篇:數據分析)

TAG:數據科學 | 運籌學 | 大數據 |