數據學習之路---每周好文分享(第一期)

這是2016年1月14日發在微信公眾號「通往數據自由之路」上的文章,第一期分享。

現在的感覺就是每天都能看到許多新的知識然後就想去了解去學習去深入。可是時間又只有那麼一點點。哈哈哈。然後一天就過去了,每晚屯下來的就是許多的鏈接(當然我覺得看了之後還是很有收穫的)。

最近收集了很多自己覺得有用的資料。首先是當作自我收藏了,當然如果你能看到,說明我們有緣,哈哈哈。感覺有用的可以點個贊。

1.這是CSDN上的一篇機器學習匯總文章,題目已經能看出大概的內容。主要是對Python包的簡單介紹。

python --網頁爬蟲,文本處理,科學計算,機器學習,數據挖掘資料+附帶工具包下載

2. 本文主要介紹幾種常用的用於分類的性能評估指標,同時介紹如何繪製ROC曲線以及計算AUC值的便捷方法。最後再附上一個繪製ROC曲線和計算AUC的源碼實現(Python)

分類之性能評估指標

3. 主要講一些模型評估與選擇,比如:

模型評估方法有:

(1)留出法(hold-out

(2)交叉驗證法(cross validation

(3)自助法(bootstrapping

性能度量:

(1)錯誤率(error rate)與精度(accuracy)n

(2)準確率(precision)和召回率(recall)n

(3)ROC 與AUC

(4)期望值分析框架

(5)偏差與方差

模型評估與選擇

4. 這是來自「詩人都藏在水底」隊伍(隊員有wepon,charles,雲泛天音)的天池比賽方案介紹,寫的還是蠻詳細的。構建了許多特徵,也講了幾種模型融合的方法。

阿里天池O2O優惠券消費行為預測競賽優勝方案

5. 這是一個叫「集智」網站下的一篇文章,寫的是文本處理的相關內容,因為我現在還沒有接觸過文本挖掘,想先收藏著以後可以回過頭來看。

文本處理:分類與優化

6. 下面這篇主要是介紹集成學習-模型融合的一些方法、基本思路、比較,也有Stack的代碼。

集成學習-模型融合學習筆記

7. 本文包括常見的模型融合方法、代碼鏈接、進階的思路。

模型融合---來自雪倫_

8. 這是github上一個關於ensemble的代碼,感覺寫的很不錯,是個輪子

ensemble.py

9. 人類的智慧和集成的機器學習技術在原理上是類似的。 群體學習的洞察力能夠為機器學習提供見解,反之亦然嗎? 在這篇文章中,我們將討論各種更多(或更少)的相關概念,並嘗試構建我們自己的集合視圖。

HUMANnENSEMBLE LEARNING

10. 這個鏈接當中都是實驗樓產品,關於Python的項目的。

實驗樓產品---Python實戰

大家如果有什麼好的文章可以學習或者分享,歡迎私信。

下面是同名微信公眾號「通往數據自由之路」(微信號:hhldata)

weixin.qq.com/r/_zgsNJb (二維碼自動識別)


推薦閱讀:

面向數據科學家的兩門課:Data8 和 DS100
智能單元專欄目錄
Image Caption 深度學習方法綜述
機器學習演算法自動訓練工具Parris,消除你重複建堆棧的煩惱
非凸優化基石:Lipschitz Condition

TAG:数据挖掘入门 | 数据分析 | 机器学习 |