面試坑殺新人指南,第二篇:數據哪來

作者:陳老師

美P黨是很容易吸引HR小美眉的面試者,卻是用人部門主管經理們很討厭的角色。這些哥們喜歡在附件里掛一個很美的PPT,聲稱這是自己的作品(所以叫他們美P黨,因為一般掛附件的ppt真的很美)。HR小美眉們不懂行,看到好看的圖表,配圖就砰然心動。然後就推薦到用人部門這裡了。

然而用人部門主管們對這玩意卻是深惡痛絕。美化的PPT,就和美圖秀秀P過的微信頭像,各個都是尖臉大眼,鬼知道真人長什麼樣啊!看到一張美女臉,心理十二分打鼓:

這個PPT真是你自己做的?不是你從哪裡抄來了?

這個PPT真是你自己獨立做的?不是哪個高人指點帶出來的?

這個PPT真是你自己全部做的?不是準備好了數據你做個P?

而且隨著kaggle的流行,現在模型也成了重災區,各個應屆畢業生都是建模高手。HR案頭一天收到200個泰坦尼克經驗的簡歷,搞得小美眉都來問了:最近是哪個古董公司在撈泰坦尼克嗎?怎麼人人都在泰坦尼克。身為數據主管的你,還得耐心解釋:別慌,馬上人人都買波士頓房,人人都插鳶尾花呢。

為了節省主管寶貴的時間,提高HR小美眉識別真假能力,要是有個:簡單的,即使不會模型的人也能問的問題就好了。這個問題可以這樣問:你這個數是哪裡來的?

比如一個面試的哥們正在濤濤不絕講ppt,HR可以半路打斷他,就指著其中一個數據問:這個數是哪裡來的?特別是那些用戶特殊的數據,比如性別年齡職業收入愛好。揪著一個連問幾句:

你這裡是哪裡來的?

數據是人工採集?用戶自填?第三方提供?

人工採集的你們誰去采?誰負責質量?怎麼保證質量?

用戶自填的你們怎麼審核?怎麼保證質量?

第三方提供你們怎麼審核?怎麼保證質量?

真實性比例是多少?這個比例你覺得會不會干擾業務判斷?

不用扯整體流程,我就問這個欄位,就這個,男女,你怎麼就知道他是女的?

基本上不懂裝懂的,網上抄襲的,沒有經驗的菜鳥都會活活被坑死。或者顧左右而言他,或者說:「這個行業就是這樣的啊!」或者鼓起勇氣憋一個數出來,然後在你追問下四分五裂,兩股戰戰幾欲先走。或者乾脆就開始額頭冒汗手扣指甲——這時候即使是不懂模型的小美眉也會看出來這是心慌發虛的表現,自然練成火眼金睛了。

踢出菜鳥找真正大神,就這麼簡單!

——本文還差一點點就完了——

之所以這個套路會管用,是因為新手們大多把注意力放到了模型、演算法、思路、結構圖上邊去了。做PPT的看到麥肯錫之類報告就高潮,做演算法的跑一邊泰坦尼克就以為自己真的可以去撞冰山了。然而,數據分析的本質是數據,真實可靠的數據從來都不是天上掉下來的,也不是「假設」「剔除」「分析」出來的。而是結結實實的需要完善的業務流程、採集、審核機制。哪些新手們看不上的,看似簡單的分析方法,其實大部分是切合實際情況,退而求其次的方案。

實際上無論是人工採集、用戶自填、用戶行為、第三方提供,都有相當局限性

1.人工採集:給補貼就造假,不給補貼就不填,很正常啊,採集員月薪才多少!

2.用戶自填:陳老師到哪都留147開頭的手機號……

3.用戶行為:大量死在一次操作的用戶怎麼辦?倖存者偏差怎麼辦?

4.第三方提供:呵呵呵呵呵呵!不怕被深圳警方抓嗎(深圳警方曾一次出動500警力橫掃非法販賣公民信息的大數據公司)

所以結合業務需求,在有限度的真實性範圍內解決問題才是正道。而不是拼誰的PPT漂亮,誰的模型複雜。數據分析的目的是產生效益!就這麼簡單。當然,理解了這一層的都不是菜鳥了,老鳥們不會栽在這裡。


推薦閱讀:

如何成為數據分析師
【原創】《如何系統性的搭建自己的知識體系》——個體加速成長的秘密
面試坑殺新人指南,第三篇:分析個啥
拒絕無意義加班!高質量的數據分析需求長這樣
自學數據分析有工作前景嗎?

TAG:数据分析 | 数据分析师 | 数据科学家 |