比賽心路 駕駛行為預測駕駛風險(二)
開篇:如果上一篇只是「開胃菜」,那這篇我會給一些更實際處理方式,也許你還在痛苦的思索中,也可能柳暗花明,沒關係,我們一起探討吧,讓大家理解這些特徵,獻給每個愛學習的小白!
目的:文章力求簡單、易懂,內容僅限於個人的理解闡述,如果有不正確的地方,請指出來。展示最基本的數據處理思想,讓更多的人參與進來,使比賽變得更有趣。
凌藍風:比賽心路 駕駛行為預測駕駛風險(一)到4月14日晚(寫文章的時候),成績還在穩步提升,希望保持在30名(在29名)以內,因為只有這樣,才能有東西寫。大家多給我出主意吧,我本來第一次參加比賽,努力記錄全部過程,如果大家在知乎上告訴我你的特徵,也許對結果影響很小,但是至少你提供的特徵和Y值正相關,我也能努力把它變為成果。這樣大家也就能通過我的筆記,全程感受比賽過程!
- 訓練的Y值 和 預測的Y值 (強調一個問題)
訓練的Y值 和 預測的Y值 含義是不同的, 訓練的Y值 是「保險實際賠率」, 預測的Y值 是」駕駛風險係數」,他們本身的含義不同,但又息息相關。
這就是為了什麼DF群里一直在聊,相同值 排序問題!因為需要用大家預測的Y值,評分系統排序後,計算Gini係數。如果預測結果有 相同Y值樣本的保費和賠款額是不同的,這樣就對結果產生不穩定因素。所以這也就是:雖然Y值大部分值(75%以上)都是趨向於0,如果你固定0作為預測結果,從MSE角度應該會有個不錯的結果,但是系統評分還是負數,為什麼也就不難理解了。
(※ 文章內容都是自己的理解,不具備權威性,下面是DF的準確回答:請自行理解判斷)
我又仔細看來好幾遍定義,怕理解錯了。
※我把重點給大家標出來了,我聽到了很多不一樣的聲音,我不想把大家帶溝里去,但我還是堅持自己的理解,呵呵。
- 如何理解Trip_No
我把行程作為了統計的最小單位。一個行程,它包含了你的起始地點、起始時間、經過的地點、行駛的總距離、經過的道路環境(起伏、坡道、轉彎)、採樣時的速度、電話的狀態。一個Trip看成一個「像素」(不懂的話,看上篇),你需要提取所有你認為重要的東西。
舉個例子(這個特徵我是使用了):如何描述道路的特徵?道路不會是平坦的,你有一組連續時間的海拔高度數據,你如何利用? std? mean? min? max? 你覺得哪些可以描述一組連續數據的狀態?(不同的路「顏色」,Y軸 海拔)
那麼兩條路的駕駛難度(假想:駕駛難度高、風險係數就大)一樣嗎?那如何處理就需要一點小智慧了。我想你能夠解決!
- 縮放數據到合適的窗口
我上次講解中的貓可愛不?他展示了一個基本原則,如果想看的清楚一個駕駛習慣,你就要有合適的窗口大小。
最簡單的窗口就是「日期特徵」!如果你按照一天來統計所有TripNo,你完全可以了解到,他的用車習慣,一天平均用幾次車啊?用車的時長是多久啊?有沒有經常經過崎嶇路段啊?影響安全的因素很多,所以不要只看「車速」!
還是拿上面的海拔來說事情,平原 和 丘陵(可能是山區),你覺得哪個 「駕駛風險高」(相同駕駛員)? 別忘記了我們的預測目標,請不要忽略任何一個「環境因素」!
- 環境因素 和 駕駛因素
我列幾個給你,你看看這些能不能在9個原始特徵中找到這些
- 道路狀況
- 駕駛習慣
- 車輛使用地 因素
請你不要放過任何一個,你可以利用的特徵值!我的成績還有提高的可能性,我和前面選手的差距也許就是1~2個特徵問題。我會努力的!
這篇「早產(本來計划下周末)」的文章也是為了,感謝大家對我的支持。DF的管理員也積極和我聯絡,希望能夠持續提供優質文章。我會繼續記錄我的心路歷程,還是那句話:請幫我點贊!我分享知識不收費:)
兄弟們給我加油吧!
- !!!廣告!!!!
如果你要報名Udacity(優達學城)的課程,優惠碼 可以輸入:A15538D3 立減300元
或是點擊報名:
優達學城 (Udacity) - 邀請好友賺學費凌藍風 2018-04-14
《原創作品-請勿轉載》
推薦閱讀:
※機器學習-高斯判別分析與樸素貝葉斯
※對抗樣本論文學習(3):Practical Black-Box Attacks against Machine Learning
※技術宅如何進化為女裝大佬
※使用 Fisher Vector 得到文本向量
※結合google facets進行機器學習數據可視化
TAG:優達學城Udacity | 機器學習 |