數據科學家 (Data Scientist) 的日常工作內容包括什麼?
數據科學家的日常工作內容包括:根據客戶需求,從數據中攫取商業價值,而這個過程中一般都會涉及統計模型和機器學習模型。如果在數據沒有處理的情況下,我們的工作偶爾也涉及清理數據。有時候我們反而希望數據是未經過處理的,因為很多重要信息都在被處理中遺失了。
一般的項目遵循以下幾個流程:確定商業痛點。明白要解決的問題是什麼?獲得數據並進行清理,常見的數據預處理包括: a. 缺失值處理 b.特徵變數轉化 c.特徵選擇和維度變化(升維或者降維) d. 標準化、歸一化、稀疏化。
與團隊其他成員的溝通。與純粹的機器科學工程師不同,數據科學家的重要工作內容是交流溝通。如果無法了解清楚客戶的需求是什麼,可能白忙活一場。如果無法了解數據工程師在採集數據時的手段,我們使用的原始數據可能有統計學偏見。如果不能講清楚如何才能有效的評估模型,負責在雲端運行模型的工程師可能給出錯誤的答案。因此,數據科學家除了建模必須親手來做以外,其他的環節可以「外包」給別人。在數據量特別大的時候,這個需求變得更為明顯。
開會、彙報、寫報告。彙報時避免「黑話」,避免給不同背景的老闆和客戶造成疑惑。直擊重點而不炫技。盡量簡明扼要,不要過分介紹模型的內部構造,重心是得到的結論。實事求是不誇大模型能力。很多機器學習模型其實都已經不同程度過擬合,不刻意避開交叉驗證而選擇「看似表現良好的」過擬合模型。給出可以進一步優化和提高的方向,為項目提出新的方向。在彙報時盡量用可視化來代替枯燥的文字。好的溝通能力不僅僅是指和團隊成員的溝通,向老闆和客戶的彙報也很考察數據科學家的能力。
首先如名稱的字面意義,這個人必須懂數據,例如數據類型,數據量,數據整合,統計等等。其次是他是個「科學家」,懂得複雜的演算法,知道一個業務問題會有多少種不同的演算法來解決。當然他要真牛的話,自己寫演算法也是可以的。
數據科學家一般對數據都很敏感,具備良好的邏輯思維能力、溝通技巧、以及優秀的問題解決能力。工作內容多是分析數據和建模,與團隊的溝通交流。
數據科學家的工作團隊性比較強,注重合作和團隊意識,團隊中每個人有不同的分工,負責收集數據,整理數據,處理數據,分析數據等。
推薦閱讀:
※機器學習導論——Day2、3
※[貝葉斯五]之樸素貝葉斯
※提升方法(AdaBoost)
※「伊人」何處,宛在雲中央:用 Datalab 在雲上部署互動式編程環境
※CS231n課程筆記(前言)