JD演算法大賽計算A榜數據池
05-03
更新:用戶全集為105321
數據更新後A榜大約是1223條,所以B榜也是差不多1223條
-------------------------------------------------------------
引言:京東演算法大賽被虐成了狗,抖波小機靈,我們來算一算A榜里到底有多少條正例
接下來進入正題,在這裡我們通過值來推算
其中P代表Precise,R代表Recall,設A榜數據量為,每次提交量為,每次提交正確量為,我們得到P和R的計算公式如下
,
代入可以計算出
我們可以看出其中不變數為,而和都是我們通過提交就可以得到的量,關鍵在,只要我們能得到那就能計算出。
所以我們提交了User表中所有的用戶,這樣就可以 ,上面的計算公式即可以化為
其sku_id隨便取了一個,因為只考慮,所以與sku_id無關。下面是提交結果,值為0.01306,我們提交量即所有用戶量為103616
帶入
如果想要計算自己每次提交對了多少呢,我們可以化簡和的計算公式:
推薦閱讀:
※知識布局-大數據apache基礎組件安裝文檔-hbase
※關於Alternative Data的一些想法(2)
※我能從本專欄讀到什麼?
※讓機器讀懂用戶--大數據中的用戶畫像
※數據分析師還吃香嗎?用數據告訴你