矽谷之路23:機器學習真人面試
說到最近比較熱門的方向,我們就不得不提一下機器學習。而前陣子阿法狗的出現更是讓機器學習這個辭彙走進千家萬戶。近兩年伯克利的機器學習入門課程選課人數增加到三倍,而卡耐基梅隆五年來的選課人數則增加到了六倍。在知名線上教學網站Coursera上,機器學習的註冊人數更是名列前茅。可以說機器學習現在真是火到沒朋友。機器學習這麼火,那麼到底機器學習到底能做什麼呢?下面讓我們來看看。
深度學習的應用
我們日常生活中的各個行業都可以用到機器學習。之前很火的阿法狗,谷歌和特斯拉的無人駕駛技術以及微軟Skype團隊的實時翻譯都用到了機器學習。而在我們的現實生活中也有不少地方已經開始廣泛使用機器學習了。比如金融行業的高頻交易。比如圖像識別車牌在國內更是幾乎無處不在。其廣泛應用於道路交通監控以及停車場收費。 等等。
決策樹
決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大於等於零的概率,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
神經網路
神經網路就是模擬人類大腦的過程。把邏輯計算抽象成像神經元一樣連接在一起。把計算層層傳遞下去。
訓練集
訓練集就是供機器學習參考的一些樣本數據
評估誤差
在機器完成訓練後,我們可以根據讓機器預測一些測試集,把預測結果和正確結果進行對比,根據正確率來做一個小評估。
高級選手
在入門後,如果想向高級進階,不妨可以在以下幾個方面進行提高。紮實的數學功底會讓你對數據的理解起到事半功倍的效果。
機器學習的崗位要求是什麼
行,那要具備什麼樣的素質才能去申請機器學習的職位呢?下面讓我們來看看機器學習招人時都有啥要求。下圖是一般大公司和機器學習崗位相關的職位要求。大多數崗位都是碩士起開始招人。同時因為機器學習一般會對代碼質量要求比較高。所以這裡演算法和數據結構以及熟練使用C++也會被列入必備技能裡面。還有一個很重要的就是要求有實戰經驗啦。如果你有相關工作經驗或者在相關開源社區裡面做出過貢獻。那毫無疑問你會從眾多候選人裡面脫穎而出!
機器學習面試題—知識篇
如果我們通過初選了,那麼面試的時候會有什麼問題等著我們呢。下面是一些常見的經典面試題。
下面我們根據沁原老師的經歷來模擬回答一些其中問題。
挑一個更高級演算法,解釋數學含義,並偽代碼實現。
以沁原老師畢業論文為例。用機器學習來猜測用戶在ebay上買什麼東西。當人在買東西時,會考慮多個因素,比如價錢,競拍結束時間,賣家信譽等。這裡因為每個人參考不一樣,有些買家喜歡便宜的,有些買家喜歡評價高的。所以這裡我們提出用密度函數。通過對買家的歷史購買紀錄的學習來判斷是否會買。同時也對每個產品建立一個密度函數綜合考慮是否購買這個商品。同時用了高斯函數來解決計算這些密度函數。最終用這個方法來猜測用戶是否購買產品時,得到了高達90%的成功率
機器學習實戰篇
面試實戰中,同樣有以下幾個經典問題是我們應該考慮的。
怎麼選擇,收集,清理數據?
下面繼續以馮沁原在酷我做音樂推薦的經驗為例回答。
要給用戶做預測,首先得先收集用戶得信息,這裡選擇了用戶自己創建得聽歌歌單作為訓練集。但是經過篩選發現,這些歌單裡面大概有60%的歌單是無效歌單。因為這裡有一些用戶為刷積分或發小廣告導致歌單不具代表價值。刷積分的歌單因為好多都是直接複製粘貼,會有比較多重複的,所以我們可以直接過濾掉相似性高的歌單。而對於廣告部分,因為小廣告一般會有url,所以根據這個也能輕易去除掉。
從上面兩個例子中我們不難看出。不管是知識篇還是實戰篇,要想回答好問題還得多多去豐富自己的經歷。平時在工作學習中多積累增長經驗。這樣對我們找到好工作會有不錯的效果。
機器學習的現狀
說了這麼多,那從事機器學習是一種怎樣的感覺?在大小公司工作有什麼不一樣呢?
目前機器學習的公司是屬於冰火兩重天的狀態。一般小公司由於資源有限,無法得到好數據,同時也缺少大牛來改進演算法。大部分工作只是部署下演算法做些微調。而諸如谷歌之類的大公司,接觸到社會資源多。同時自身用戶基數大,有機會拿到好數據,同時研發部門也能跟上提供一些高效的演算法。在這種工作環境下做機器學習能快速積累到不少寶貴的經驗。達到秒殺各自offer的能力。
總結
- 還在上學拿來學
- 已經工作開數學
- 全棧大牛隨手學
更多精彩內容, 請掃描下面二維碼,關注微信公眾賬號「論碼農的自我修養」
推薦閱讀:
※」CNN是空間上的深度網路,RNN是時間上的深度網路「這句話怎麼理解?
TAG:机器学习 | 深度学习DeepLearning |