曉曼分享：機器學習幾個基本的問題

02-03

後面關於數據挖掘的一些方面都主要由曉曼同學來主持分享了，不想寫代碼方面的東西了。^_^

———————————————禁止轉載—————————————————

從今年（2015）三月份到現在已經工作了9個多月了，最開始是做推薦系統，然後做機器學習，現在是文本挖掘，每個部分研究的時間都不多，但還是遇到了很多問題，目前就把一定要總結的問題總結一下，以後有時間多看看，提醒自己看有沒有解決。

推薦系統：

　　1.冷啟動熱啟動區別和聯繫？各個階段需要的演算法？

　　2.每個演算法的數學推導、適用情況、優缺點、改進方法、數據類型？

　　3.如何平衡熱啟動時的準確率和召回率，兩者不可能同時高，怎麼平衡？從演算法本身還是業務層面？驚喜度怎麼添加？

　　4.如何評價推薦系統的好壞？指標是啥？

機器學習：

　　1.能解決哪幾類問題？（分類聚類回歸預測？）每一類型會有哪些演算法？

　　2.每個演算法優缺點各是什麼？各能解決什麼問題？側重點是什麼？對數據的平衡性要求大嗎？對初始值敏感嗎？需要的數據類型是什麼？（數值 or 類別？或者混合使用？）

　　3.每個演算法是如何推導的？如果要調優要從哪些步驟著手？目前的局限是什麼？（背後的數學依據）各個演算法之間的聯繫和區別是啥？各演算法之間可以結合嗎？瓶頸和局限是什麼？

　　4.python的scikit-learn包是不是都熟悉了，源碼有沒有看過？自己嘗試把每個演算法寫一下，看看和scikit-learn包跑起來有沒有區別？精確度是否會提高？

　　5.每個演算法的評價指標是什麼？（精確度召回度f1-score還有別的嗎？）可視化有哪些方法？（ROC曲線？目前只知道這個，還有其他的嗎？）

文本挖掘：

　　1.基本步驟是啥？（清洗數據（缺失值、噪音數據、平滑處理）--->中文分詞（各種方法）--->特徵提取（tfidf還有其他幾種方法） --->特徵選擇（卡方互信息發IG法等等）--->用機器學習演算法跑）有沒有漏的？或者有沒有哪些步驟還有補充的可以提高精度的？

　　2.各個步驟之間各有哪種方法？每種方法區別和聯繫？數學推導是什麼？有沒有可以改進的地方？有沒有新的方法可以自己造的？

　　3.數據編碼轉碼不容忽視，不要忘記「不可見字元」（windows--->linux系統時候容易出現的問題）

　　這是工作到現在覺得必須要解決的問題，以後有新的發現再補充。關於這些問題的解決，不定期的在博客里發出來，不斷修改，不斷添加，總之，學習是個不斷迭代的過程，fighting！：）

—————————————————禁止轉載————————————————

如果覺得有價值，請大家支持！打賞點贊（據說可以加芝麻分喲：D）！另外數據分析聯盟微信群也發展的很快，下面建個5群。