二手車估價網站（如車蟲網、車300），他們的估價原理是什麼，數據可靠嗎？

12-08

專註二手車評估，值得信賴的二手車專家
車三百(車300,che300)-權威公正準確的二手車估值與交易平台

這兩家公司的估價是有自己獨立的數據演算法，還是簡單的網路爬蟲後大致給出的價格。
這種網站的核心競爭力到底是什麼呢？

自己平時工作的一部分正好是和問題相關的內容，而估價產品也有在1樓第二張圖中列出；

題主的問題有兩個：

估價的原理；
結果是否靠譜；

先回答第一個，其實目前二手車圈子的估價，回歸本質，其實就是做這些事情：

數據源的獲取：比如評估產品甲手中獲取到了某款二手車的車商收購價/普通C方成交價/成交的時間/具體車型等等的數據；
數據源的處理：用戶通過評估產品甲輸入該車的某些評估條件後，根據上述的數據，能夠得出評估結果；

先說數據源的獲取，各家的方式各有不同，但思路無非是：

自己有的直接用；
自己沒有的想辦法獲取：BD，spider甚至是一些有違背職業道德的方法；

那麼眾所周知，信息平台類型的二手車價格比較混亂，所以從數據源的角度來說，這些數據並不「優質」，後期需要做較多的處理；
所以在這個環節中，本身有交易數據的評估產品，優勢就比較明顯，如果把整個評估的過程視作賽跑，那麼他們相當於在起步階段就領先於對手，本身交易數據覆蓋範圍越廣越深，就相當於領先的越多；

賽跑進入中後段，那便是數據源的處理，這個環節又重點分為2個大的步驟：

噪音數據的處理；
最終評估的計算；

當通過第一階段獲取到了一定數量的數據之後，那麼不論這些數據是自有的還是第三方獲取的，那麼都存在噪音數據的問題，即有些數據不可用（假的，不全的，壞的等等），那麼如何定義噪音和過濾噪音就到了各家各顯神通的時候了，這裡面具體的演算法雖然不能公開，但這個環節的重要性，在當前二手車大環境下，在我看來是重於最後的評估演算法；
在這個環節做的好的評估產品，相當於在賽跑的中段能夠拉開與對手的距離；

當進入後段，去噪完的數據，就進入到最後的計算環節了，這個環節反而不是最複雜的，演算法雖然各有不同，但原理都是對於不同密度的散點數據的分析所得出的結果，不同時間緯度的數據密度越大，對於演算法的精確度就越高；
在後段，各個競品的差距在我看來不是很大，無非是奔跑的方式不同，比如最後輸出結果是單個數字的（您的車輛預計成交價5萬）和結果是一個範圍的（您的車輛預計成交價範圍4~5萬），他們的核心演算法是不同的；

那麼第二個問題便有了答案，在目前的二手車評估環節中，每個階段都能跑贏對手的還沒出現，最後領先對手的，往往是起步階段或中段（或二者都有）奠定了優勢；
所以評估產品自身（或者乾爹或者乾娘）手中的真實交易數據越多，占這個數據源的比例越大，並且去噪做的越好的，那麼評估數據越「可靠」（每個人的可靠定義不同，在此不多表）；

樓主可以對照1樓中的各個評估產品，最後符合上述條件的便寥寥無幾；
而這寥寥無幾的幾個產品中，「冷門」車輛的評估結果依舊「不靠譜」，因為評估的後段——「不同時間緯度的數據密度越大，對於演算法的精確度就越高」，而這些冷門車輛的散點密度太小，不足以支持精確的計算，何謂冷門，廣義上說，可以把20萬以上的車輛都統歸為冷門，往細了說，偏遠地區，較小眾的車型，都屬於冷門；

所以，如果你使用上述幾個評估產品進行非冷門車輛的評估，那麼他們的結果是比較靠譜，數據比較精確的，可以放心參考；

利益相關：已經不相關了。

先上一張截圖，我想能夠解決樓主的疑問了，估價這件事情有四個門檻，也是基礎：

1、全面、準確、易用的二手車車型庫
我們知道很多2000年左右的車子，現在在二手車市場仍然流通，包括一些進口車型，還有一些有細微差異的或者定製版，限量版的車子（如政府採購版之類），要把這個車型庫做的很全面，細緻，讓用戶能易於選擇和理解實屬不易。
目前市場上的各家估價產品的車型庫體驗優劣，相信車主，二手車經銷商用過之後心裡有數。

2、更多接近實際成交價的價格資料庫
根據統計學原理我們不難理解，樣本足夠大，可能經過加權、去噪等演算法得到的數值會約具有參考性，這裡拼的是手裡的成交價格樣本數據量（抓取，合作，付費收集等）
此處，單就一點來說，顯然獨立的第三方估價平台更具優勢，拍賣平台數據及其他二手車信息平台直接把自己的數據給到競爭對手的估價產品去使用的可能性不大。

3、數學模型及演算法
數學模型簡單來說就是「汽車的價值受品牌保值程度，行駛里程，地區，新車價格，政策，車況等變數綜合影響，通過這些變數進行數學運算最終是可以得出一個具有參考價值的價格區間」。演算法這塊各家有差異，車蟲網在經過數萬次甄選後，決定使用「神經網路演算法」。
在實地應用中，經過298萬車主使用，有超過95%的二手車車主反饋數據極其接近成交價格（出售價）；
數據來源：截止2015年4月車米通APP

車米通 - 二手車價值評估，同時提供二手車幫買，幫賣服務 http://d.chechong.com

經過2.8萬二手車行業從業人員（商家及評估師）使用，118個城市，超過98%的從業者反饋，收車價格極具參考價值，能夠有效提高收車效率。
數據來源：截止2015年4月車中助手APP

車蟲助手 - 評估師職業助手，提供二手車估價，收車，賣車，評估師求職招聘等服務 http://d1.chechong.com

4、二手車評估師團隊
在全國，車蟲網擁有2.8萬名二手車評估師，其中合作機構（如4S店，拍賣機構，連鎖超市，培訓機構）的評估師約佔1/3，也有活躍於市場中的小商家，還有一部分是車蟲網自有評估師，這些人每天都在為車蟲網做價格校準和反饋，依託更多一線評估師，確保價格數據、信息及時、有效、接地氣這是車蟲網團隊獨有的優勢，將這個群體擁有完善二手車估價這件事的，車蟲網也是第一人。

由於競爭對手都是我很尊重的行業前輩，這裡就不對別家做直接評價個分析，僅對自家經營的車蟲網及系列產品做一些簡單介紹。至於樓主擔心的數據是否可靠，對比一下便知。最終哪家估價平台能夠跑贏這場比賽，成為二手車行業定價標準，這條路還很長、很遠。

瀉藥。
關於涉及我工作範疇內的話題，由於多方面原因，不便多說。
既然邀請我了，我就貼兩張圖吧。
行業的創業者，公平價的萬可文，精真估的魏士欽，車蟲網的李會兵，車三百的許偉，都是在努力的為行業在做實事，克服了很多的困難仍然前行，是值得行業敬佩的。

獨立演算法和數據來源是兩個概念，現有數據來源，你才能做獨立演算法，這是邏輯套路。我覺得應該是基於網路爬蟲抓取的，所以公司風險度較高，如果對方網站察覺
通過技術方式屏蔽了有關抓取，這個是很容易實現的，就如淘寶、騰訊都屏蔽百度抓取等。車300本身不買賣車，所以他和神州租車合作獲得穩定部分車源，但神
州租車車輛是有限的，所以談不上叫大數據。車300最大風險就是電商平台封殺他的車源信息抓取（類似CMS聚合），後果不堪設想，數據源太小，談不上大數
據提供就不一定準，其次部分車商數據有自己波動，和實體店跟不上。我感覺車300應該吧重心放在傳統實體店信息合作上，互聯網的話還是謹慎合作。

數據源的獲取：比如評估產品甲手中獲取到了某款二手車的車商收購價/普通C方成交價/成交的時間/具體車型等等的數據；

數據源的處理：用戶通過評估產品甲輸入該車的某些評估條件後，根據上述的數據，能夠得出評估結果；

我認為是十分可靠的，因為是依賴數據處理得到的結果
而其競爭力則取決於誰的數據基礎更大，分析系統更精確

車三百估值不錯

有了解過美國KBB這個報價網站嗎？同時，美國有個Carfax的網站專門報告車輛歷史。

就簡單舉幾個例子
那二手車的價格和哪些因數有關，也許都可以說出幾個：品牌、miles、哪一年、幾任車主、title是否clean的等等，那自然而然會有陸續的問題，比如

1、什麼更影響二手車的價格？（在模型中，就是分析coefficient of independent variable大小）
2、是不是二手車的價格真的被那些因數影響？（在模型中，可以假設coefficient=0, 然後進行 F –test）
3、好車是不是更容易被換主人（在模型中，檢驗品牌和幾任車主的multicollinearity）
4、車主是男是女，對二手車的價格有影響嗎？（在模型中，可以假設一個dummy variable,如果車主是女，假定dummy=o ,否則 dummy =1）
等等
如果能有足夠多的原始數據，這些都是可以分析出來的。當然，模型沒有完美這一說法，只能通過不斷的擬合讓它越來越貼近實際情況。（這就是後期噪點處理的問題）

根據目前國情，線上估價系統只是一個粗略的估計，具體估價需要更專業的知識，還需要檢查具體車況來決定。目前所有線上平台估價系統都未把車況考慮進去