比賽心路 駕駛行為預測駕駛風險(二)

開篇:如果上一篇只是「開胃菜」,那這篇我會給一些更實際處理方式,也許你還在痛苦的思索中,也可能柳暗花明,沒關係,我們一起探討吧,讓大家理解這些特徵,獻給每個愛學習的小白!

目的:文章力求簡單、易懂,內容僅限於個人的理解闡述,如果有不正確的地方,請指出來。展示最基本的數據處理思想,讓更多的人參與進來,使比賽變得更有趣。

凌藍風:比賽心路 駕駛行為預測駕駛風險(一)?

zhuanlan.zhihu.com圖標

到4月14日晚(寫文章的時候),成績還在穩步提升,希望保持在30名(在29名)以內,因為只有這樣,才能有東西寫。大家多給我出主意吧,我本來第一次參加比賽,努力記錄全部過程,如果大家在知乎上告訴我你的特徵,也許對結果影響很小,但是至少你提供的特徵和Y值正相關,我也能努力把它變為成果。這樣大家也就能通過我的筆記,全程感受比賽過程!

  • 訓練的Y值 和 預測的Y值 (強調一個問題)

訓練的Y值預測的Y值 含義是不同的, 訓練的Y值 是「保險實際賠率, 預測的Y值 是駕駛風險係數,他們本身的含義不同,但又息息相關。

這就是為了什麼DF群里一直在聊,相同值 排序問題!因為需要用大家預測的Y值,評分系統排序後,計算Gini係數。如果預測結果有 相同Y值樣本保費和賠款額是不同的,這樣就對結果產生不穩定因素。所以這也就是:雖然Y值大部分值(75%以上)都是趨向於0,如果你固定0作為預測結果,從MSE角度應該會有個不錯的結果,但是系統評分還是負數,為什麼也就不難理解了。

(※ 文章內容都是自己的理解,不具備權威性,下面是DF的準確回答:請自行理解判斷)

DF 官方解釋

我又仔細看來好幾遍定義,怕理解錯了。

期望值定義

※我把重點給大家標出來了,我聽到了很多不一樣的聲音,我不想把大家帶溝里去,但我還是堅持自己的理解,呵呵。

  • 如何理解Trip_No

    我把行程作為了統計的最小單位。一個行程,它包含了你的起始地點、起始時間、經過的地點、行駛的總距離、經過的道路環境(起伏、坡道、轉彎)、採樣時的速度、電話的狀態。一個Trip看成一個「像素」(不懂的話,看上篇),你需要提取所有你認為重要的東西。

舉個例子(這個特徵我是使用了):如何描述道路的特徵?道路不會是平坦的,你有一組連續時間的海拔高度數據,你如何利用? std? mean? min? max? 你覺得哪些可以描述一組連續數據的狀態?(不同的路「顏色」,Y軸 海拔)

兩種不同的路,min和max相同

不考慮時間的問題,兩個標準差是一樣(假想值和路徑圖無關)

那麼兩條路的駕駛難度(假想:駕駛難度高、風險係數就大)一樣嗎?那如何處理就需要一點小智慧了。我想你能夠解決!

  • 縮放數據到合適的窗口

我上次講解中的貓可愛不?他展示了一個基本原則,如果想看的清楚一個駕駛習慣,你就要有合適的窗口大小。

最簡單的窗口就是「日期特徵」!如果你按照一天來統計所有TripNo,你完全可以了解到,他的用車習慣,一天平均用幾次車啊?用車的時長是多久啊?有沒有經常經過崎嶇路段啊?影響安全的因素很多,所以不要只看「車速」!

還是拿上面的海拔來說事情,平原 和 丘陵(可能是山區),你覺得哪個 「駕駛風險高」(相同駕駛員)? 別忘記了我們的預測目標,請不要忽略任何一個「環境因素」

  • 環境因素 和 駕駛因素

我列幾個給你,你看看這些能不能在9個原始特徵中找到這些

  1. 道路狀況
  2. 駕駛習慣
  3. 車輛使用地 因素

請你不要放過任何一個,你可以利用的特徵值!我的成績還有提高的可能性,我和前面選手的差距也許就是1~2個特徵問題。我會努力的!


這篇「早產(本來計划下周末)」的文章也是為了,感謝大家對我的支持。DF的管理員也積極和我聯絡,希望能夠持續提供優質文章。我會繼續記錄我的心路歷程,還是那句話:請幫我點贊!我分享知識不收費:)

兄弟們給我加油吧!

  • !!!廣告!!!!

如果你要報名Udacity(優達學城)的課程,優惠碼 可以輸入:A15538D3 立減300元

或是點擊報名:

優達學城 (Udacity) - 邀請好友賺學費?

cn.udacity.com圖標

凌藍風 2018-04-14

《原創作品-請勿轉載》


推薦閱讀:

機器學習-高斯判別分析與樸素貝葉斯
對抗樣本論文學習(3):Practical Black-Box Attacks against Machine Learning
技術宅如何進化為女裝大佬
使用 Fisher Vector 得到文本向量
結合google facets進行機器學習數據可視化

TAG:優達學城Udacity | 機器學習 |