泰坦尼克

05-15

本次課程中kaggle和泰坦尼克預測，講義中的ppt有很多缺失，比如登船港口的數據使用One-hot編碼處理後，加入到原始的數據集中。如果不加入數據集中，在判斷特徵相關性時，就不會出現Mrs，Miss等。案例代碼沒有錯誤，而且邏輯特別清楚。在學習kaggle這一課中，必須參考老師給出的案例代碼。

言歸正傳，1.簡單線性回歸，用來判斷兩個特徵與標籤之間的相關性程度。

2. 如何評估模型的精準度。在線性回歸中，決定係數R平方，使用的命令也是model.score()命令。在邏輯回歸中使用正確率作為指標，命令也是，model.score()。

3. 3中數據類型，1數值數據（定量數據）包括，離散數據（邏輯回歸）和連續數據（線性回歸）。2分類數據（定性數據）。3時間序列數據。

4. 離散（邏輯回歸）是0與1.連續（線性回歸）是0到1.

5.機器學習的步驟，1提出問題，2數據理解【1,採集數據，2導入數據，3查看數據集信息，describe，info】，3數據清洗【1數據集預處理，缺失值填充fillna，刪除缺失值dropna，2特徵工程，特徵提取：one-hot編碼get_dummies，特徵選擇：相關係數法。】，4構建模型，5模型評估，6方案實施。

在本次學習中遇到問題，正如我前面說的，課程中的ppt有遺漏，如果不看案例代碼，在進行特徵相關性大小排序時，Mrs，Miss等相關特徵，不會體現。猴子老師可以更正補充。