【譯文】2016年度Analytics Vidhya上最火爆的36篇文章和資源

作者 KUNAL JAIN

譯者 錢亦欣

引言

時光猶如白駒過隙,又到一年末尾,該做點總結了。(譯者註:原文有大量抒情文字,我懶得翻譯了。。。)

這篇文章總結了16年度本網站上最火的資源,我們把它們分成了指南,短文,職業文和技能測試四個板塊以方便閱讀。

如果你是個新人,一定會愛死這篇文章,畢竟這是網站一整年的精華。如果你已經是個專家,你也大可以挑選一些感興趣的隨便翻翻。

別了2016,你好2017

於我們而言,2016年是現象級的一年。(譯者註:後面是成果簡介啊,感謝讀者啊,未來展望啊,我懶得翻譯了。。。)

本文的正確打開方式

本文按照四個板塊將資源分類,大家各取所需。(譯者註:這段我意譯的)

指南類

1. R語言數據科學入門指南

如果你是個徹頭徹尾的R新人,這篇文章不容錯過。它的目標讀者就是那些對機器學習毫無概念的人。它會告訴你R的基本知識,如何做探索性數據分析和數據操作,最後也會教會你如何建立一個預測模型。我保證這是R語言界的最棒的手把手數據科學教程

工具: R

技術: 完整的案例教學

等級: 初學者

2. Python數據科學入門指南

如果你想以python為工具開始你的數據科學之旅,這篇文章就會是你的引路人。同樣,它假定讀者沒有任何python知識,從基礎語法開始教學,同時兼顧常用的python庫。在這之後,它會帶著你探索,整理數據並建立預測模型。

工具: Python

技術: 包括logit模型,決策樹和隨機森林在內的完整案例

等級: 初學者

3. 基於樹的模型導論(R和Python)

這篇指南將一步步教會你建立基於樹的模型,比如決策樹,隨機森林和梯度提升法這類應用廣范的技術。它會告訴你這些演算法的思想和應用的方式,同時也不需要你對機器學習有任何先驗知識,然而你必須對R或者python比較熟悉。

工具: R & Python

技術: 基於樹的模型

等級: 中級

4. 時間序列預測指南 (python)

時間序列是數據科學的重要概念,本文將會帶你領略分析時間序列的各種技術,並提供python代碼。你將會學到時間序列的特點,如何用Pandas載入並處理時間序列,如何檢驗平穩性,如何進行平穩化處理並做預測。

工具: Python

技術: 時間序列預測

等級: 中級

5. PCA操作指南(R和Python)

有時你處理的數據集可能包含了非常多的變數,在這裡面尋找適宜的子集可能非常麻煩。這時,PCA技術就可以大顯神威了,PCA是從一個大集合中提取重要信息的技術。通過本文,你將學會PCA的理論基礎,變數規範化,PCA在R與Python中的實現和如何用主成分建模等技術。本文需要讀者有基礎的統計學知識。

工具: R & Python

技術: Principal Component Analysis(主成分分析)

等級: 中級

6. XGBoost調參指南(提供python代碼)

XGBoost被數據科學家們認為是最強大的演算法之一。用XGBoost老建模很容易,但調參卻是一個苦力活。這篇指南會結合案例教你如何在python中調節XGBoost的參數,讓你知道XGBoost的優勢。要讀懂這篇文章,你得有python方面的知識。(譯者註:我怎麼感覺這麼反諷。。。)

工具: Python

技術: XGBoost

等級: 中級

7. 用Python做嶺回歸和LASSO

很多人對於回歸的理解就局限於線性回歸和邏輯斯底回歸,但回歸的範疇其實遠大於此。本文就是關於嶺回歸和LASSO回歸的指南,這是最基本兩種正則化技術。你講學會它們的理論基礎和相對於線性回歸的優勢。我保證看完這篇文章,你就能將它們運用於實戰。

工具: Python

技術: Ridge & Lasso regression

等級: 中級

8. Python中的梯度提升法(GBM)調參指南

梯度提升法很容易實現,可調參卻很困難。這篇文章會讓你了解python中GBM背後的原理。你能學到提升法的工作原理和調參的經驗。在對GBM的調參有簡單認識後,它會讓你掌握通用的調參方法。

工具: Python

技術: Gradient Boosting Model

等級: 中級

9. 數據探索指南

你的預測模型的極限取決於你對於數據的理解。數據探索有助於你構建合適的特徵,並把數據和背景領域結合。這篇指南會教你數據探索和預處理的步驟,比如缺失值處理,離群值的檢測和處理以及特徵工程的藝術。我打賭在本文的幫助下你能在下次的機器學習競賽中提升你的模型表現。

工具: Agnostic

技術: 探索性數據分析,缺失值插值,離群值檢測

等級: 初學者

10.亞馬遜網頁服務(AWS)機器學習建模指南

雲計算是數據科學家工作流的重要部分。如果你要處理的數據量超過了你的筆記本的能力分為,雲計算將會是解決方案。本文將會指導你使用AWS的終端和界面,然後你會學會如何配置和載入實例。一旦你熟悉了AWS的工作方式,你就可以使用python構建機器學習模型了。本文對R用戶也會有所幫助,你要做的只是改變代碼。

工具: R & Python, 雲

技術: NA(譯者註:原文就是NA)

等級: 初學者

文章類

1. Python中進行數據整理的12項Pandas技術

Pandas是Python中用來分析,處理和可視化數據的利器。本文將教會你利用Pandas處理數據的12項技術,同時用機器學習的數據集做案例。你講了解如何生成邏輯變數,插補缺失值,生成多標籤,生成數據透視表,合併數據框和其他有用技能。它也講解了如何提升每個步驟的執行速度。

工具: Python

技術: 數據探索,數據可視化

等級: 中級

2. 如何在R中建立XGBoost模型

在進來的一些數據競賽中,XGBoost一直主導著比賽。(譯者註:這算官方吐槽嗎。。。)本文將指導你如何在R中利用XGBoost建模,XGBoost的參數的意義,它的作用機理和如何檢測結果。

工具: R

技術: XGBoost

等級: 中級

3. 人人都該了解的7中誤差評價模式

本文將會讓你深入了解多種模型結果評價模式,包括混淆矩陣,增益提升圖,AUC和ROC,基尼係數,K-S圖,均方誤差,Concordant – Discordant 比率和交叉驗證。

工具: Agnostic

技術: 模型評價

等級: 初學者

4. 面向小白的貝葉斯統計分析

貝葉斯統計始終是統計的重要概念之一,然而很多分析師和數據科學家對其了解並不深入。這方面的數學解釋對很多人而言可能挺有必要,因此這篇文章特意用簡易英語撰寫,幫助你了解貝葉斯統計。(譯者註:我就是搞貝葉斯的,大家也可以私信和我交流討論)

工具: Agnostic

技術: 貝葉斯統計

等級: 中級

5.5大用來處理缺失值的R包使用指南

缺失值插補是建模前的重要預處理步驟,如果你是個R語言用戶,這篇指南你應該讀一讀。本文將會指導你使用5個R包插補缺失值,它們是MICE,Amelia,MissForest,Hmisc和mi。為方便理解,每個包的使用都配合實例講解。

工具: R

技術: 缺失值插補

等級: 初學者

6. Python推薦引擎構建快速指南

如今想Facebook,Amazon和Youte之類的大網站都會用到推薦引擎,而構建推薦引擎的過程好玩但又有挑戰性。這篇文章會講解推薦引擎的類型和程序實現。你講學到如何建立基於流行度的模型和協同濾波模型,並對電影數據進行實例操作。

工具: Python

內容: 推薦引擎

等級: 中級

7. R語言不平衡數據分類指南

不平衡數據集的處理富有技巧性,本文會告訴你為什麼機器學習演算法的預測金魚會被數據集的不平衡性降低,同時也提供了處理這一難題的幾種方法。為了讓你有實際動手經驗,本文還利用實例提供了在R中實現不平衡數據分類的實例。(譯者註:該文在雪晴數據網上有譯文)

工具: R

技術: 不平衡分類

等級: 中級

8.在Python中利用Theano訓練神經網路

人工神經網路是近年來的熱點,自動駕駛企車,語言識別,圖像識別等技術的實現都是依賴於這一模型。本文將會利用Python中的Theano庫來實現這一模型,全文會先介紹Theano的功能,如何在其中實現簡單表達式,Theano的變數和函數的類型等基礎知識。最後會訓練一個簡單的兩層神經網路。

工具: Python – Theano

技術: 人工神經網路

等級: 中級

9.如何在R中實現多項Logit模型和有序Logit模型

本文將會指導你建立多項Logit模型和有序Logit模型來對多水平分類變數進行建模。在幫助你深入了解這兩類模型的作用機理後,本文還將指導你在R中實現它們。本文需要讀者對R語言比較熟悉。

工具: R

技術: 多項Logit模型和有序Logit模型

等級: 初學者

10. 如何利用R中的Boruta包實現特徵選擇

對任何機器學習模型而言特徵選擇是重要概念,優勢刪去先關變數會對模型表現產生巨大影響。R中恰好有個包就專攻這一領域,本文會告訴你Boruta包的原理和使用方法,讀完本文你就會了解Boruta由於傳統特徵選擇演算法的緣由。本文需要R語言方面的先修知識。

工具: R – Boruta

技術: 特徵選擇

等級: 中級

書籍 / 課程類

1.數據科學領域關於統計與數學的必讀書目(免費)

每個數據科學家都應該對統計和數學有深入了解。這個書單能確保你能打好相關技術,書單中的書全都是免費的,可以自由下載,趕緊學習吧!

2. 給編程苦手的19個數據科學工具

代碼可能是那些不大擅長編程的數據科學家們職業道路上最大的絆腳石(譯者註:不擅長編程還是趁早轉行吧。。。),然而不必擔心,這裡的19個工具可以讓你不再落後於人。它們都提供了非常友好的GUI(圖形界面),你只需要一點點關於編程的知識就可以訓練模型了。

3.Github上最活躍的數據科學家,免費圖書,筆記和教程

本文將會幫助你追隨Github上的那些大牛,我們在這篇文章也分享了很多免費電子書和筆記的鏈接,為了你用起來方便,我們把這些資源給R和Python用戶分別做了歸類。

4.R於Python關於數據科學方面的18本必讀新書

數據科學界關於R和Python誰更好的爭論一直沒有停息,然而不論你使用哪種語言,本文對你都會有所幫助。之前我們也提供了很多教程,課程和開源圖書資源,然而我們認為圖書的幫助範圍更大。這裡列出了一些R和Python數據科學方面的必讀書目,希望對你有用。

5.2015-16年度SAS,R,Python,機器學習,大數據和Spark方面的頂級認證課程

如今互聯網上有不計其數的課程和認證,混淆了大家的視聽。為了幫助你找到最符合你需求的資源,本文列舉了2016年印度評分最高的課程,快去尋找最適合你的那幾門課吧。

職業類

1.2016年數據科學家終極養成指南

成為數據科學家道阻且長,本文則提供了一些有用經驗讓你少走彎路。它將全年計劃按照月份做了拆分來幫助你實現個人目標。通過它你將會實現在數據科學或者機器學習領域覓得一席之地的理想。

2. 機器學習/數據科學新興企業常用的40道面試題

我打賭你在每個面試前都會四處打聽關於數據科學和機器學習的常見面試題,本文就列舉了40道常見面試題幫助你下次面試有更好表現。相信我,這是你在相關領域能得到到的最好的面試指南。

3. 北美名校10大數據科學碩士項目

你是否正在申請北美大學的數據科學碩士項目?入坑之前你最好仔細了解每個學校的項目來來決定自己的申請目標。本文列舉了北美名校的10個頂級數據科學方面的碩士項目,通過閱讀你能了解它們各自的優勢和不足。

4. 2016年印度數據科學家薪酬報告

 本文旨在提供一份關於數據行業的真實的市場報酬報告。自印度成為世界第二大數據人才需求市場後,其工資水平也是水漲船高。這份報告反映了印度市場數據科學方面專家的薪酬水平,如果你是這方面的新手,這會是一份很好的激勵材料。

5.一各能提升你建立含金量的機器學習項目

我們一直在諮詢那些想要甚至嘉興的數據科學從業人員,發現在職業生涯中期要實現這一目標難度不小。而簡歷缺少吸引力則是他們最大的擔憂之一,本文則提供了一個富有挑戰的機器學習項目的手把手教程,相信把這個項目經歷添加進簡歷會有所幫助。

技能測試類

1. 技能測試--機器學習

本年我們已經提供了不少技能測試讓你評估自己對一些基本概念的理解程度,而這份試題則是針對那些機器學習實踐者。它包含了機器學習的多方面概念,同時題目設計又是基於實踐問題。題目共有40道,並且都有詳細的解答。

2. 技能測試--統計學 第一部分 第二部分

統計學是數據科學的基礎,良好的統計功底能讓你的職業生涯扶搖而上九萬里(譯者註:這句我個人用了誇張的修辭手法,因為我是學統計的)。我們設計了初級和高級兩份試題,如果是新人就先做第一部分,掌握第一份提出的內容之後就可以做第二部分了。

3. 技能測試--R & Python

讓自己快速掌握編程語言精髓的最好方式之一就是不斷地測試自己,這兩份測試題包含了40道左右的問題,試試你能答對幾道。

4. 技能測試--回歸

回歸是統計分析和預測建模的最重要的概念,這裡有關於回歸和相關技術的45到問題。我們不希望你只是個半吊子數據科學家,所以每一題我們都準備了詳盡的解答。這是你學習回歸的最好資源之一。

5. 技能測試--基於樹的演算法

諸如隨機森林,決策樹和梯度提升法之類的基於樹的演算法是機器學習的常用演算法。回答這裡的45道測試題能讓你對自己在該領域的學識有所了解。如果你想快速掌握基於樹的模型的基本概念,這是最好的材料。

結語

大致就是希望你喜歡,新年快樂之類的,懶得翻譯了。

注:原文刊載於Analytics Vidhya網站

鏈接:analyticsvidhya.com/blo

推薦閱讀:

IDLE如何清屏?

TAG:R编程语言 | Python | 数据科学家 |