目前做爬蟲,往後的職業發展方向是什麼?
目前在接觸數據爬取,想了解一下往後的職業發展方向都有什麼,做數據抓取的行業前景怎麼樣?
給定目標類型的頁面,如何選擇最有效的抓取路徑?
如何保證覆蓋率?
給定目標頁面,如何最有效的調度,保持更新?
如何判斷 url 不同,內容相同的頁面?
如何在不抓回頁面之前判斷內容相同頁面?
不給定目標頁面,如何判斷頁面是否有價值?
如何在不抓回頁面之前判斷頁面是否有價值?
如何從頁面中提取數據?
如何理解頁面上的信息?
2、如果頁面有4000億呢?
謝邀,看到問題好久了,一直怕誤導別人,沒有答,今天睡不著,和你分享一下我的看法。畢業兩年,結合自身經驗來說下吧。
如果你是編程初學者,可以試著不使用框架,從語言的原生介面上面寫一套標準的HTTP API出來,這個還是比較考驗功力的,你可能需要好好複習一下計算機網路這本書。同時解析數據也可以提高你的基礎編程水平,正則表達式應該也就學會了。接下來你可能就會慢慢學會用抓包工具分析包從而實現模擬登錄,分析頁面js從而實現反加密,或者接觸到了驗證碼識別之類的更高級的玩意兒,也會接觸到多線程,線程池等各種亂七八糟的…對你的編程水平提高是大有裨益的。
但是話說回來,爬蟲有發展嗎?個人覺得很難。各種語言的爬蟲框架都已經數不勝數,輪子都幫你造好了,你剩下的工作就是寫個正則,把數據處理下,技術含量也太低了。不知道你見沒見過php仿站的,爬光一個網站的數據可能也就幾分鐘,動動手指配置一下就好了。
我曾經的工作就是爬各個省市交管局的違章信息,爬了老子兩個月,天天就盯著哪個網站又改版了,哪個網站又驗證碼了,真的是煩。當你百分之90的時間在寫正則表達式,這份工作你肯定做不久的。所以很慶幸辭掉了那份工作,當然那份工作還是幫我好好複習了一下大學的計算機網路課程。搜索
看你的目的。爬蟲一般是有兩類目的
一類是爬數據做基礎數據
另外是爬數據做數據分析用
第一類情況只是臨時或者股東周期的採取數據,一般比較簡單
第二類是數據挖掘與分析
長遠來看。數據挖掘與分析適合做為職業規劃
爬蟲是手段,數據是目的。尤其是在大數據越來越火的今天,數據的積累和獲取已經越來越重要。有時候你沒有注意到的一點點小數據也許就可以發揮出無限的價值。
爬蟲之後有兩條路可以走
一個技術走到黑,和反爬蟲作鬥爭,做數據採集定製或者採集數據銷售
一個是轉數據分析,數據採集清洗入口+分析可視化,一條龍
答錯地方了。。刪
這玩意有好方向的話來錢快!肯定有N多自由職業者
推薦閱讀:
※python如何爬取字幕組網站的電影鏈接地址?
※我該如何用PHP的cURL獲取這個奇葩的網頁內容?
※使用python爬取pixiv.net的圖片?
※關於scrapy的crawlspider?
※爬蟲怎麼保存圖片?