一份優秀的網路爬蟲工程師簡歷是怎麼樣的?
只要你能用瀏覽器正常訪問,我就能爬到。
這不只是一句slogan,而是你到這個水平才能寫上去的.
爬蟲嘛,往複雜了無非就是多機器多節點超大規模數據的分散式抓取,或者超級難防的反爬蟲機制,經驗活兒~~~我寫的爬蟲幫我在12306搶到了回家的票
本人擅長Ai、Fw、Br、Ae、Pr、Id、Ps等軟體的安裝與卸載;
精通CSS、JavaScript、PHP、C、C++、C#、Java、Ruby、Perl、Lisp、Python、Objective-C、ActionScript等單詞的拼寫;
熟悉Windows、Linux、MacOS、IOS、Android等系統的開關機,求一份月薪上萬的工作!
關注大數據,歡迎加我們微信dashuju234。其實吧,簡歷你越簡單越好,把幾個項目的脈絡說下就OK啦,一技在手,天下我有。
========== 2015-12-10 ==========
謝 @王德明 提醒。果然是我孤陋寡聞了,隨手一搜,這個職位還真不少,看樣子給的還挺多:
你就照著職位要求挑會的填簡歷就是了。
========== 2015-12-09 ==========
沒聽過網路爬蟲工程師這職位,是我孤陋寡聞 naive?
不過爬蟲涉及的技能樹還是挺大的。根據自己的經驗強答一下。
爬蟲架構:是自己設計還是基於已有的定製,例如 Scrapy.
頁面下載的時候可能涉及:TCP/IP,反盜鏈,反封 IP,多線程,多進程,協程 …
頁面解析的時候可能涉及:正則表達式,基本的 Web 技術 …
數據存儲:關係型,例如 MySQL;NoSQL,例如 Redis … 一定程度上影響到後續處理;
數據展現:可視化技術,UI …
編程語言:Python,Java …
指哪爬哪,從不被封。
.*?
大部分就是看自己的經驗,看你抓過什麼樣的網站,遇到了什麼樣的問題又是怎麼解決,如ip被封,多線程是怎麼解決的?js懂不懂。。。。
別廢話,寫一個傳github上。nb或sb,都很直白。
簡歷剛被刷 html+css scrapy http協議 mysql 躺了
寫會用什麼語言爬唄(&>﹏
推薦閱讀:
※Python 爬蟲進階?
※對於一些加密的動態網頁的數據採集,除了通過phantomjs還有沒有別的通用的方法?
※如何避免「用隱形鏈接」的反爬蟲技術?
※使用Hadoop能做哪些比較有趣的事情?
※python關於xpath的一個問題:如何提取某標籤下所有內容?
TAG:爬蟲計算機網路 |