阿里巴巴數據挖掘工程師要求什麼技能?
在讀武大碩士一枚,專業是GIS因為一直在搞數據挖掘的項目,有志畢業後去阿里從事數據挖掘,特別是空間數據挖掘的崗位,求教在此之前都需要哪些儲備?另外怎麼獲得實習機會
謝@第五大洋莫叔邀。。。想不到知乎第一次被正經邀請竟然是來吐槽老東家。。姑且談一點感受吧。
首先,阿里是個大公司,雖然很多部門都在招數據挖掘工程師,但是由於每個部門的需求不同,層次也不一樣,因此對於人員的技術要求實在是說不清楚。。我一直覺得我所在的部門一定是全阿里技術最菜的了(否則怎麼會把我這種渣招進去。。),然而經過和其他部門的同學交流之後才發現原來還有更菜的存在。。題主如果想進阿里,可能的話,最好能提前聯繫好部門,想做科研型的研究演算法底層的話最好去iDST(似乎北京地區的部門在演算法上總體要比杭州做的好一些),其他部門如搜索和安全部似乎也有類似崗位,可以提前聯繫。看題主描述要做空間信息,應該是要去高德了吧,具體有沒有這種部門不太了解。至於其他的一線業務部門,如我之前所在的部門,所做的工作一般比較low,下面會詳細說。這些崗位的工作根據部門的差異會比較大,當然,畢竟崗位的名字都是叫數據挖掘工程師,工作當中自然也會有許多相同之處。下面談一下作為一線業務部門每天數據挖掘工程師都在做些啥。
1.跑數據,每天最重要也是最耗時間的事情就是跑數據。為此你經常需要和SQL打交道,在我們部門所有新入職的數據挖掘工程師都需要到數據研發工程師(管數據倉庫的)輪崗半年。想想好多人在一個部門可能也就呆兩三年。。一輪崗半年也是很醉。如此決定的原因是為了讓你熟悉業務。身為數據挖掘工程師,如果對於數據倉庫里的數據都不能做到完全理解,直接跑演算法純粹屬於抓瞎。照我們老大的說法就是你要「培養數據的感覺」,對此我還是深表贊同。但是久而久之你會慢慢發現這尼瑪和當初自己想像中的數據挖掘工作不一樣啊,我是想來當算命先生的,怎麼過來就成了在數據倉庫搬磚的了。。sad but true。如果題主無法接受這樣的工作狀態,建議你還是找更偏研究一些的崗位,不要來一線業務部門。
2.演算法,說實話,因為工期催得緊,演算法層面都很low,基本都是隨便寫寫再直接調庫跑出來一個結果能交差就沒有然後了。畢竟現實情況下,耗費大量時間在演算法優化的結果往往是費勁九牛二虎之力才提高了0.0000x個預測準確率,並沒有什麼意義。目前部門內做推薦演算法的團隊還只是在用最基本的Apriori,而像決策樹,隨機森林這些比較古舊的方法在部門內貌似還是很常用的演算法。。SVM什麼的我都很少見有人用,至於深度學習什麼的就更不說了。。你可以感受一下,當然別的部門是什麼情況我並不知道。因此我並不覺得面試的時候把數據挖掘演算法全都搞的很透徹有什麼必要,可能很多面試官也沒搞清楚吧(逃)。
3.評case。我們這邊每周都會評case,當然很多時候會因為下一個需求來了很多沒解決的問題也就不了了之。。
日常工作大概就是上面三個周而復始
-----------------------------------------------------------------------------
關於實習面試,其實問的還是很雜。我所遇到的情況,多數時間還是項目描述,你做了什麼,怎麼做的,如果項目經驗比較豐富的話,往往面試就在聊項目的過程中過去了。一些基本的數據挖掘概念肯定是要知道。比如聚類分類,過擬合,還有一些演算法的理解和如何優化,不用太深刻,但原理要懂吧。至於編程,阿里是眾所周知的Java聖地,我遇到好幾個面試官問了我多線程編程問題,也有喜歡問JVM的,雖然在工作中並不知道有什麼卵用(或許還是因為我們太low了吧)。面試這種運氣因素佔比爆表的事其實誰也說不清楚,感覺最重要的還是要體現出你的自信,或者概括成三個字:不能慫。最後,找實習的話,可以找內推,但還是那句話,一定要提前打聽清楚團隊。謹慎入坑。推薦閱讀:
※阿里巴巴為何不在國內上市?
※rocketmq怎麼保證隊列完全順序消費?
※阿里巴巴馬雲和facebook扎克伯格為什麼關係這麼好?
※如何看待蝦米音樂 macOS 客戶端在注釋中稱部分用戶「窮逼VIP」?
※阿里在線筆試為什麼推薦使用Chrome、Firefox?