泰坦尼克

本次課程中kaggle和泰坦尼克預測,講義中的ppt有很多缺失,比如登船港口的數據使用One-hot編碼處理後,加入到原始的數據集中。如果不加入數據集中,在判斷特徵相關性時,就不會出現Mrs,Miss等。案例代碼沒有錯誤,而且邏輯特別清楚。在學習kaggle這一課中,必須參考老師給出的案例代碼。

言歸正傳,1.簡單線性回歸,用來判斷兩個特徵與標籤之間的相關性程度。

2. 如何評估模型的精準度。在線性回歸中,決定係數R平方,使用的命令也是model.score()命令。在邏輯回歸中使用正確率作為指標,命令也是,model.score()。

3. 3中數據類型,1數值數據(定量數據)包括,離散數據(邏輯回歸)和連續數據(線性回歸)。2分類數據(定性數據)。3時間序列數據。

4. 離散(邏輯回歸)是0與1.連續(線性回歸)是0到1.

5.機器學習的步驟,1提出問題,2數據理解【1,採集數據,2導入數據,3查看數據集信息,describe,info】,3數據清洗【1數據集預處理,缺失值填充fillna,刪除缺失值dropna,2特徵工程,特徵提取:one-hot編碼get_dummies,特徵選擇:相關係數法。】,4構建模型,5模型評估,6方案實施。

在本次學習中遇到問題,正如我前面說的,課程中的ppt有遺漏,如果不看案例代碼,在進行特徵相關性大小排序時,Mrs,Miss等相關特徵,不會體現。猴子老師可以更正補充。

推薦閱讀:

有哪些人並非是在自己所擅長的領域成功,並為大家所熟知?
浪潮之巔 第三版
日本的專利數量和質量都很高嗎?在知識產權管理方面有哪些值得借鑒的地方?
鎚子科技:擁有 10 大前沿創新科技的 Revolution One 開啟預購
看完可口可樂這些創意十足的黑科技,百事可樂黨估計也不得不服吧

TAG:科技 | 數據分析 |