比賽心路駕駛行為預測駕駛風險（二）

04-24

開篇：如果上一篇只是「開胃菜」，那這篇我會給一些更實際處理方式，也許你還在痛苦的思索中，也可能柳暗花明，沒關係，我們一起探討吧，讓大家理解這些特徵，獻給每個愛學習的小白!

目的：文章力求簡單、易懂，內容僅限於個人的理解闡述，如果有不正確的地方，請指出來。展示最基本的數據處理思想，讓更多的人參與進來，使比賽變得更有趣。

凌藍風：比賽心路駕駛行為預測駕駛風險（一）?

zhuanlan.zhihu.com

到4月14日晚（寫文章的時候），成績還在穩步提升，希望保持在30名（在29名）以內，因為只有這樣，才能有東西寫。大家多給我出主意吧，我本來第一次參加比賽，努力記錄全部過程，如果大家在知乎上告訴我你的特徵，也許對結果影響很小，但是至少你提供的特徵和Y值正相關，我也能努力把它變為成果。這樣大家也就能通過我的筆記，全程感受比賽過程！

訓練的Y值和預測的Y值 (強調一個問題)

訓練的Y值 和 預測的Y值含義是不同的，訓練的Y值是「保險實際賠率」，預測的Y值是」駕駛風險係數」，他們本身的含義不同，但又息息相關。

這就是為了什麼DF群里一直在聊，相同值排序問題！因為需要用大家預測的Y值，評分系統排序後，計算Gini係數。如果預測結果有 相同Y值樣本的保費和賠款額是不同的，這樣就對結果產生不穩定因素。所以這也就是：雖然Y值大部分值（75%以上）都是趨向於0，如果你固定0作為預測結果，從MSE角度應該會有個不錯的結果，但是系統評分還是負數，為什麼也就不難理解了。

（※ 文章內容都是自己的理解，不具備權威性，下面是DF的準確回答：請自行理解判斷）

DF 官方解釋

我又仔細看來好幾遍定義，怕理解錯了。

期望值定義

※我把重點給大家標出來了，我聽到了很多不一樣的聲音，我不想把大家帶溝里去，但我還是堅持自己的理解，呵呵。

如何理解Trip_No

我把行程作為了統計的最小單位。一個行程，它包含了你的起始地點、起始時間、經過的地點、行駛的總距離、經過的道路環境（起伏、坡道、轉彎）、採樣時的速度、電話的狀態。一個Trip看成一個「像素」（不懂的話，看上篇），你需要提取所有你認為重要的東西。

舉個例子（這個特徵我是使用了）：如何描述道路的特徵？道路不會是平坦的，你有一組連續時間的海拔高度數據，你如何利用？ std? mean? min? max? 你覺得哪些可以描述一組連續數據的狀態？（不同的路「顏色」，Y軸海拔）

兩種不同的路，min和max相同

不考慮時間的問題，兩個標準差是一樣（假想值和路徑圖無關）

那麼兩條路的駕駛難度(假想：駕駛難度高、風險係數就大)一樣嗎？那如何處理就需要一點小智慧了。我想你能夠解決！

縮放數據到合適的窗口

我上次講解中的貓可愛不？他展示了一個基本原則，如果想看的清楚一個駕駛習慣，你就要有合適的窗口大小。

最簡單的窗口就是「日期特徵」！如果你按照一天來統計所有TripNo，你完全可以了解到，他的用車習慣，一天平均用幾次車啊？用車的時長是多久啊？有沒有經常經過崎嶇路段啊？影響安全的因素很多，所以不要只看「車速」！

還是拿上面的海拔來說事情，平原和丘陵（可能是山區），你覺得哪個「駕駛風險高」（相同駕駛員）？別忘記了我們的預測目標，請不要忽略任何一個「環境因素」！

環境因素和駕駛因素

我列幾個給你，你看看這些能不能在9個原始特徵中找到這些

道路狀況
駕駛習慣
車輛使用地因素

請你不要放過任何一個，你可以利用的特徵值！我的成績還有提高的可能性，我和前面選手的差距也許就是1~2個特徵問題。我會努力的！

這篇「早產（本來計划下周末）」的文章也是為了，感謝大家對我的支持。DF的管理員也積極和我聯絡，希望能夠持續提供優質文章。我會繼續記錄我的心路歷程，還是那句話：請幫我點贊！我分享知識不收費：）

兄弟們給我加油吧！

！！！廣告！！！！

如果你要報名Udacity（優達學城）的課程，優惠碼可以輸入：A15538D3 立減300元

或是點擊報名：

優達學城 (Udacity) - 邀請好友賺學費?

cn.udacity.com

凌藍風 2018-04-14

《原創作品-請勿轉載》

比賽心路 駕駛行為預測駕駛風險（二）

比賽心路駕駛行為預測駕駛風險（二）