安全數據科學是什麼?
安全數據科學是什麼?
在談論安全數據科學的時候,我們首先應該講講數據科學是什麼。
數據科學作為一個21世紀的新生概念,一經提出就獲得了和大數據一樣的頂級追捧待遇(國外更流行說一些,國內差不多是12年引入的,但是提到次數比較少,可能因為這個名字本身有點偏學術意味,但實際上這是工業界提出的一個概念),但是與之伴隨而來的,還有人們對這個陌生概念的種種誤解。
- 統計學 + 機器學習 = 數據科學?
- 又是一個騙錢的虛概念?
在wiki上,對數據科學有如下定義——
數據科學(英語:Data Science),又稱資料科學,是一門利用數據學習知識的學科,其目標是通過從數據中提取出有價值的部分來生產數據產品。 它結合了諸多領域中的理論和技術,包括應用數學,統計,模式識別,機器學習,數據可視化,數據倉庫,以及高性能計算。
那麼簡單來說,數據科學其實是包含了數學和統計學知識、編程技能、實務知識(指某個特殊領域的領域知識)的一門混合學科。具體參見下圖——這幅圖是Drew Conway在2010年的時候提出的數據科學技能韋恩圖,也是目前傳播範圍最廣的一張數據科學解釋圖。
也就是說,數據科學除了對理論知識、工程能力都有一定要求以外,實務知識也是非常非常重要的一環。這裡與其說是實務知識,我更願意將其翻譯為領域知識。在不同的領域,比如說金融或是安全,數據科學都要求你對相關領域有一定的了解——因為演算法本身,是服務於業務場景的。如果作為一名演算法工程師,對業務場景沒有一個明確的認識,那麼我們很難相信他能夠迅速選擇出較好的特徵,更不要提他應該如何去面對公司龐大的、專業性極強的業務數據。
比如說一個病毒樣本的特徵,如果這名演算法工程師對安全領域一無所知,可能他需要從0開始學習xss或是Trojan?安全領域的同行們應該都知道安全領域的知識真的非常繁多:),那麼這個學習成本真是想想都讓人覺得會高到天上去呢。
說到這裡,安全數據科學的概念也已經非常清晰了。
安全數據科學就是結合了數學和統計學知識、編程技能以及安全相關知識的一門數據科學下的子學科。
對於那些希望往安全數據科學發展的同學,你需要掌握的技能有以下7點——
- 編程技能
- 數學
- 統計學
- 機器學習
- 安全領域的專業知識
- 溝通和演講的技巧
- 數據可視化
這也是這個專欄里會涉及到的所有內容。
一點初心
其實我是懷著非常膽戰心驚的心情開通地這樣一個專欄,除了前面提到的安全數據科學其實是一個非常大所以很難面面俱到的領域以外,目前國內也還沒有看到有人正式提出安全數據科學這一概念。除此之外,我自己的姿勢水平也是一個原因。我深知憑我自己當前的見識,其實還遠沒有資格在諸位大大面前對這一領域評頭論足。
但無論如何,專欄都已經開通了。(你這是什麼理由啊喂!)
目前國內各大安全廠商雖然都開始建起了自己的數據倉庫,開始引入機器學習,但是對安全數據的處理還基本停留在數據分析的階段,在演算法的運用上,也都比較基礎。據我了解的情況,真正開始讓安全數據開始產生價值的團隊只有很少一部分,剩下的大多數可能都還停留在PPT上?(哎你這樣說不怕被圈內封殺嗎!)更不要說在摸索階段大家需要慢慢踩過的那麼多坑。
所以對於國內安全領域而言,引入機器學習、建立起良好的防禦體系,將安全數據科學發揚光大,其實都還有很長一段路要走。
而安全數據科學這一個領域,是我想要窮盡一生去探索和做好的一件事。
可能當下的我還很渺小和不起眼,但既然決定了,就一起加油吧~
鑒於我個人能力有限,如果文章里有任何不妥之處都歡迎您隨時指出,私信或評論都可以,萬分感謝。
同時歡迎所有對這個領域感興趣的同學投稿到這個專欄里,我已經開放了專欄投稿功能,並且會及時進行審稿。
您還可以通過以下途徑找到隨機出沒的我——
- 微博:左左薇拉vera——新浪微博
- 我的個人博客:薇拉航線
推薦閱讀:
※是什麼驅動了Python近些年強力的增長?來自Stack Overflow的分析
※從微積分和線性代數角度看線性最小二乘原理
※消除對數據科學家的錯誤認識
※雖然是BSO但是還算是我的DS提高路程
※聚類演算法第一篇-概覽