一份優秀的網路爬蟲工程師簡歷是怎麼樣的?


只要你能用瀏覽器正常訪問,我就能爬到。

這不只是一句slogan,而是你到這個水平才能寫上去的.

爬蟲嘛,往複雜了無非就是多機器多節點超大規模數據的分散式抓取,或者超級難防的反爬蟲機制,經驗活兒~~~


我寫的爬蟲幫我在12306搶到了回家的票


本人擅長Ai、Fw、Br、Ae、Pr、Id、Ps等軟體的安裝與卸載;
精通CSS、JavaScript、PHP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript等單詞的拼寫;
熟悉Windows、Linux、MacOS、IOS、Android等系統的開關機,求一份月薪上萬的工作!

關注大數據,歡迎加我們微信dashuju234。其實吧,簡歷你越簡單越好,把幾個項目的脈絡說下就OK啦,一技在手,天下我有。


========== 2015-12-10 ==========

謝 @王德明 提醒。果然是我孤陋寡聞了,隨手一搜,這個職位還真不少,看樣子給的還挺多:

你就照著職位要求挑會的填簡歷就是了。

========== 2015-12-09 ==========

沒聽過網路爬蟲工程師這職位,是我孤陋寡聞 naive?

不過爬蟲涉及的技能樹還是挺大的。根據自己的經驗強答一下。

爬蟲架構:是自己設計還是基於已有的定製,例如 Scrapy.

頁面下載的時候可能涉及:TCP/IP,反盜鏈,反封 IP,多線程,多進程,協程 …

頁面解析的時候可能涉及:正則表達式,基本的 Web 技術 …

數據存儲:關係型,例如 MySQL;NoSQL,例如 Redis … 一定程度上影響到後續處理;

數據展現:可視化技術,UI …

編程語言:Python,Java …


指哪爬哪,從不被封。


.*?


大部分就是看自己的經驗,看你抓過什麼樣的網站,遇到了什麼樣的問題又是怎麼解決,如ip被封,多線程是怎麼解決的?js懂不懂。。。。


別廢話,寫一個傳github上。nb或sb,都很直白。


簡歷剛被刷 html+css scrapy http協議 mysql 躺了


寫會用什麼語言爬唄(&>﹏


推薦閱讀:

Python 爬蟲進階?
對於一些加密的動態網頁的數據採集,除了通過phantomjs還有沒有別的通用的方法?
如何避免「用隱形鏈接」的反爬蟲技術?
使用Hadoop能做哪些比較有趣的事情?
python關於xpath的一個問題:如何提取某標籤下所有內容?

TAG:爬蟲計算機網路 |