數據科學人才: 如何順藤摸瓜提高你的競爭力

IntetixnFoundation(英明泰思基金會)由從事數據科學、非營利組織和公共政策研究的中國學者發起成立,致力於通過數據科學改善人類社會和自然環境。通過聯絡、動員中美最頂尖的數據科學家和社會科學家,以及分布在全球的志願者,我們創造性地踐行著我們的使命:為美好生活洞見數據價值。

原作者: Bob Hayes

原文鏈接: Empirically-Based Approach to Understanding the Structure of Data Science

基於一項針對620多位數據專家的調查研究,我們發現數據科學技能分為三個分支:行業知識背景(本文特指商業),技術/編程和數學/統計。這項研究將影響目前數據科學家,即將成長為數據科學家和招聘者。

數據科學是從數據中提取信息的能力。普遍認為三個主要技能將有助於提升數據科學能力。它們是:行業知識背景(商業上為商業頭腦),技術/編程,數學/統計技能。

nnnn在這項數據科學研究中,我們測試數據科學家們對25項不同的數據科學技能的熟練程度(見圖1)。我們把這25個技能劃分到五個領域:行業、技術、編程、數學、統計及建模。

圖1: 數據科學調研中測試的25項技能

通過因子分析做維數減少

雖然我們可能人為把25個數據技能劃分到這五個領域,但是我們還可以看看數據能告訴我們什麼。為此,我使用了因子分析法。因子分析是個數據精簡技術,當你的數據集中有很多很多變數,希望適當減少變數個數的時候使用。通常,因子分析檢查多個變數間的統計關係(比如,相關性),並嘗試用較少的變數(因子)來呈現和解釋這些相關性。這些精簡過的因子(變數)即被用於解釋你研究的現象。

因子分析的結果呈現在矩陣表格里。因子矩陣是個N×M表格(N=原始變數個數,M=潛在因子個數)。因子矩陣的元素代表各個變數和潛在因子之間的回歸係數(如相關係數)。這些元素(或因子載荷)代表了變數和各個潛在因子之間的關係強度。因子分析結果將告訴我們兩件事情:

1. n因子的個數

2. n哪些變數能通過因子很好地表現

結論

因子分析的使用在本質上是探索性的分析,即,對數據不預先定義其結構。25個技能之間的實際關係模式推動了模型的結果。雖然為能最好地描述數據,需要人為決定了因子個數,但是因子個數的選擇也要基於這個模型結果。當前的因子分析的目標是用儘可能少的因子解釋這25個技能之間的關係。為此,我有幾個藉助特徵值來決定因子個數(因子分析的輸出結果)的經驗法則。特徵值代表了每個因子計算出的公共方差所佔的百分比。第一個經驗法則是基於特徵值大於總體(1.0)的個數,另外一種方法是畫圖標記(稱為散點圖)25個特徵值來確定一個明顯的斷裂點。

圖2: 來自於對25項數據科學技能熟練程度評級因子分析的特徵值的散點圖

圖2中可以看出第三、第四n個特徵值之間有明顯的斷裂點。因此,我選擇使用三個因子來解釋這25個技能之間的關係。三個因子可以對25個數據技能熟練程度的公共方差的62%進行解釋。

基於三因子分析方法,因子模型矩陣很容易理解,25個數據技能熟練程度評級的因子分析模型矩陣見表1。

表1: 25項數據科學技能熟練程度評級與因子關係矩陣

表1中用不同顏色標記出的是每行的最大值,這三個因子名的命名是基於這些較大的值。比如,許多數學和統計方面的技能在因子1這一列值很高,那麼我就標記此列為數學/統計。同樣的方法分別標記技術/編程和行業。

通過可視化的方法揭示數據科學的結構

你可以將這三個因子想像成三維空間里的坐標軸(x,ny, z)。通過使用數值將25個數據技能分布在空間里,你可以將這三個因子視覺化,如圖三所呈現。圖中的每一個點代表了一個具體的數據科學技能。而每一種技能用不同的顏色來代表與它有所聯繫的領域。數學/統計由綠色表示,商業由黃色表示,技術/編程由藍色表示。此外,為了使讀者能在三維角度來看這張圖,我將點與面相連,平面上的點代表了空間點的z值。

圖3: 25項數據科學技能用因子表達

你可以看到這25個數據科學技能是怎樣聚集成三個不同的群體的,每個群體代表了一個技能領域。有少數技能在多個因子中有高輸入值,這些技能通過多種色彩表示出來了,包括產品設計(有較高的商業和技術/編程的輸入值),數據管理(有較高的技術/編程和數學/統計的輸入值),自然語言處理和文本挖掘(有較高的技術/編程和數學/統計的輸入值)。

總結

儘管數據科學是由許多不同領域的技能構成的,數據科學技能可以分為三個大領域:學科相關專業知識(在本文特指商業知識),技術/編程,以及數學/統計。通過將25個不同的數據科學技能進行因子分析和排序,可以揭示出一個三維的解決方法。

這個結果對於數據人才和招聘者都有幫助。如果你是一個數據方面的人才,你擁有什麼樣的數據技能呢?我們的結果顯示,在三個技能領域內,在一個領域擁有專業知識的數據人才往往在這個領域其他有相關的技能。因此,我建議你首先了解自己的才能是什麼。如果你有很強的數學/統計背景,你可以考慮修讀那個技能領域的課程。如果你已經有很強的統計技能和統計思維能力,學習相關的技能(如機器學習)會比學習其他技能(如前端編程)簡單。n如此,就可以順藤摸瓜提高本身的競爭力。

如果你是一個招聘者,你的公司能否成功取決於你能否將候選人的技能與職位要求相匹配。有許多不同的技能都可以成為數學/統計和技術/編程領域內的部分。你要確保理解候選人擁有的特定技能。你可以使用表2所列舉的技能作為評估候選人技能的起點。

參與人員:策劃-徐睿藝、樊茜茜;編譯-蔡志玉、陳秀秀;編輯-張璇;

推廣- 申洪浩、李華芳、李燕雲、

nnnn轉載聲明:歡迎轉載,請您在轉載時保留署名和引用信息。歡迎您在知乎或微信上關注我們。


推薦閱讀:

TAG:大数据 | 数据科学家 | 数据 |