【譯】重新定義「數據科學家」

【譯】重新定義「數據科學家」

來自專欄大數據分析挖掘7 人贊了文章

作者: BERNARDO LUSTOSA

來源:VentureBeat

參與:Cynthia

翻譯:本文為天善智能編譯,未經容許,禁止轉載


在機器學習的早期,僱傭優秀的統計人員是人工智慧項目的關鍵挑戰。現在,機器學習已經從早期的關注統計數據到更加重視計算。隨著構建演算法的過程變得越來越簡單,人工智慧技術的應用越來越多,人工智慧領域的人力資源專家面臨著新的挑戰。數據科學家不僅處於供不應求的狀態,而且判定一個成功的數據科學家的標準發生了變化。

統計模型與神經網路的差異

就在六年前,統計模型(通常是邏輯回歸)和神經網路之間的差異還很小。作為一個黑盒子,神經網路具有稍強的分離能力(統計性能)。由於它們具有相似的潛力,所以選擇是否使用神經網路或統計模型是由每個場景的需求和創建演算法的專業人員類型決定的。

然而,最近神經網路已經進化到支持許多層。這種深度學習能夠有效和新穎地利用非結構化數據,如文本、聲音、圖像和視頻。增強的處理能力、圖像標識符、同聲傳譯、文本解釋器和其他創新使神經網路與統計模型進一步分離。伴隨這種進化發展,需要擁有新技能的數據科學家。

建立演算法的元素

儘管演算法結構和功能發生了變化,構建高質量預測模型的過程仍然遵循了一系列沒有太大變化的步驟。比所使用的擬合和方法更重要的是能夠有效和創造性地執行這個過程的每個步驟。

現場採訪

數據科學家通常不是他們研究的領域的專家。相反,他們是為各種企業或學術決策過程創造演算法所需的準確性和精確性的專家。然而,如今的要求是,數據科學家要對演算法要解決的問題有所了解,因此,與專註於這個特定問題的主題專家進行訪談是必不可少的。現在,數據科學家可以研究跨越廣泛知識領域的神經網路,從預測非洲蝴蝶的死亡率到決定何時何地為老年人發布廣告。這意味著今天的數據科學家必須能夠並且渴望向許多學科的專家學習。

理解問題

每個預測都取決於大量的因素,數據科學家必須知道這些因素,以便理解它們之間的因果關係。例如,要預測哪些申請人會拖欠貸款,數據科學家必須知道要問以下問題:

為什麼人們會違約?

他們是否計劃在申請時違約?

違約者的負債是否超過了他們的收入?

申請過程中是否存在欺詐?

申請貸款是否存在銷售壓力?

這些是關於這個話題的許多問題中的一部分,而且在每一個機器學習的步驟中都有很多問題。一個數據科學家如果只想創建演算法而不與涉及正在探索的現象的人深入交談,那麼他創建有效演算法的能力將是有限的。

識別相關信息

作為一名數據科學家,在篩選這些問題的答案時,還必須熟練地挑選出可能解釋這種現象的信息。一個訓練有素、充滿好奇心的數據科學家還將通過搜索、爬蟲和API在網上查找相關數據,以確定最相關的預測因素。

抽樣

統計知識——在計算知識、經驗和判斷的基礎上——對於響應變數的定義、資料庫的分離、過去數據使用的認證、調整、驗證和測試之間的數據分離以及其他的抽樣步驟而言非常重要。然而,如今計算方法正支持越來越大的構建複雜演算法所必需的資料庫。因此,統計和計算技能對當今的數據科學家來說都是必須的

調整和評估

這一步驟已經被改變,相比學術技術知識需要更多的連通性和努力。在計算方法中,調整和評價主要基於社區研究和嘗試和錯誤。由於不可能對等式中隱含的因果關係進行數學理解,專業人員應該知道如何搜索最適合他們活動的網路體系結構。一旦他們找到了適用的方法,就需要反覆試驗,直到找到對這一現象的滿意解釋。

安裝啟用

在這一步中,數據科學家的IT知識和與主題相關專家的關係是至關重要的。所有這些API、內部數據提取和爬蟲都不容易精確、穩定且不出差錯地部署。例如,如果使用了爬蟲,那麼將來它必須在沒有生產錯誤的情況下運行,並且如果源代碼發生變化,爬蟲就將需要維護。今天的數據科學家不僅設計演算法,還設計新的應用程序,而這些應用程序必須受到監視和維護。

基於對每一步的新要求,徹底性、創造力和整體視野都是一個偉大的數據科學家的標誌,對於這些能力的要求遠遠超過了線性代數的專業知識。當然,這並不排除有經驗的統計學家。他們經常能很容易地適應這些變化,用他們的語言和體系結構深入地研究這些變化。計算機學院還培養出完全有能力表現出色的專業人士,只要他們將研究和理解問題與思考概率的能力結合起來。

傳統主義者可能會堅持認為,統計學家是數據科學領域最優秀的人才。但是我相信好奇心,廣博的學術知識,以及願意與他人一起追求信息等對於現代數據科學家的角色來說比統計訓練更重要,因為神經網路的創建需要比演算法本身更廣泛的關注。


原文地址:venturebeat.com/2018/05


推薦閱讀:

吳恩達機器學習第六周課後感
python機器學習之dlib人臉識別
簡單邏輯回歸
動態規劃尋找最優策略之policy evaluation(策略估計)
人工智慧會取代醫生嗎?給您5個 "say no "的理由

TAG:數據科學家 | 機器學習 | 數據分析 |