曉曼分享:機器學習幾個基本的問題
後面關於數據挖掘的一些方面都主要由曉曼同學來主持分享了,不想寫代碼方面的東西了。^_^
———————————————禁止轉載—————————————————從今年(2015)三月份到現在已經工作了9個多月了,最開始是做推薦系統,然後做機器學習,現在是文本挖掘,每個部分研究的時間都不多,但還是遇到了很多問題,目前就把一定要總結的問題總結一下,以後有時間多看看,提醒自己看有沒有解決。
推薦系統:
1.冷啟動熱啟動區別和聯繫?各個階段需要的演算法?
2.每個演算法的數學推導、適用情況、優缺點、改進方法、數據類型?
3.如何平衡熱啟動時的準確率和召回率,兩者不可能同時高,怎麼平衡?從演算法本身還是業務層面?驚喜度怎麼添加?
4.如何評價推薦系統的好壞?指標是啥?
機器學習:
1.能解決哪幾類問題?(分類聚類回歸預測?)每一類型會有哪些演算法?
2.每個演算法優缺點各是什麼?各能解決什麼問題?側重點是什麼?對數據的平衡性要求大嗎?對初始值敏感嗎?需要的數據類型是什麼?(數值 or 類別?或者混合使用?)
3.每個演算法是如何推導的?如果要調優要從哪些步驟著手?目前的局限是什麼?(背後的數學依據)各個演算法之間的聯繫和區別是啥?各演算法之間可以結合嗎?瓶頸和局限是什麼?
4.python的scikit-learn包是不是都熟悉了,源碼有沒有看過?自己嘗試把每個演算法寫一下,看看和scikit-learn包跑起來有沒有區別?精確度是否會提高?
5.每個演算法的評價指標是什麼?(精確度召回度f1-score還有別的嗎?)可視化有哪些方法?(ROC曲線?目前只知道這個,還有其他的嗎?)
文本挖掘:
1.基本步驟是啥?(清洗數據(缺失值、噪音數據、平滑處理)--->中文分詞(各種方法)--->特徵提取(tfidf還有其他幾種方法) --->特徵選擇(卡方互信息發IG法等等)--->用機器學習演算法跑)有沒有漏的?或者有沒有哪些步驟還有補充的可以提高精度的?
2.各個步驟之間各有哪種方法?每種方法區別和聯繫?數學推導是什麼?有沒有可以改進的地方?有沒有新的方法可以自己造的?
3.數據編碼轉碼不容忽視,不要忘記「不可見字元」(windows--->linux系統時候容易出現的問題)
這是工作到現在覺得必須要解決的問題,以後有新的發現再補充。關於這些問題的解決,不定期的在博客里發出來,不斷修改,不斷添加,總之,學習是個不斷迭代的過程,fighting!:)
—————————————————禁止轉載————————————————
如果覺得有價值,請大家支持!打賞點贊(據說可以加芝麻分喲:D)!另外數據分析聯盟微信群也發展的很快,下面建個5群。
推薦閱讀:
※搞架構和搞演算法,哪個更牛一些?
※科學式家|胡時偉:讓數據科學家成為業務專家,再為他們配一支技術軍團
※Coursera吳恩達《神經網路與深度學習》課程筆記(4)-- 淺層神經網路