目前做爬蟲，往後的職業發展方向是什麼？

12-28

目前在接觸數據爬取，想了解一下往後的職業發展方向都有什麼，做數據抓取的行業前景怎麼樣？

給定目標類型的頁面，如何選擇最有效的抓取路徑？
如何保證覆蓋率？
給定目標頁面，如何最有效的調度，保持更新？
如何判斷 url 不同，內容相同的頁面？
如何在不抓回頁面之前判斷內容相同頁面？
不給定目標頁面，如何判斷頁面是否有價值？
如何在不抓回頁面之前判斷頁面是否有價值？
如何從頁面中提取數據？
如何理解頁面上的信息？

1、所有以上過程都由演算法自動完成。
2、如果頁面有4000億呢？

謝邀，看到問題好久了，一直怕誤導別人，沒有答，今天睡不著，和你分享一下我的看法。畢業兩年，結合自身經驗來說下吧。

如果你是編程初學者，可以試著不使用框架，從語言的原生介面上面寫一套標準的HTTP API出來，這個還是比較考驗功力的，你可能需要好好複習一下計算機網路這本書。同時解析數據也可以提高你的基礎編程水平，正則表達式應該也就學會了。接下來你可能就會慢慢學會用抓包工具分析包從而實現模擬登錄，分析頁面js從而實現反加密，或者接觸到了驗證碼識別之類的更高級的玩意兒，也會接觸到多線程，線程池等各種亂七八糟的…對你的編程水平提高是大有裨益的。

但是話說回來，爬蟲有發展嗎？個人覺得很難。各種語言的爬蟲框架都已經數不勝數，輪子都幫你造好了，你剩下的工作就是寫個正則，把數據處理下，技術含量也太低了。不知道你見沒見過php仿站的，爬光一個網站的數據可能也就幾分鐘，動動手指配置一下就好了。

我曾經的工作就是爬各個省市交管局的違章信息，爬了老子兩個月，天天就盯著哪個網站又改版了，哪個網站又驗證碼了，真的是煩。當你百分之90的時間在寫正則表達式，這份工作你肯定做不久的。所以很慶幸辭掉了那份工作，當然那份工作還是幫我好好複習了一下大學的計算機網路課程。

搜索

看你的目的。爬蟲一般是有兩類目的

一類是爬數據做基礎數據
另外是爬數據做數據分析用

第一類情況只是臨時或者股東周期的採取數據，一般比較簡單
第二類是數據挖掘與分析

長遠來看。數據挖掘與分析適合做為職業規劃

爬蟲是手段，數據是目的。尤其是在大數據越來越火的今天，數據的積累和獲取已經越來越重要。有時候你沒有注意到的一點點小數據也許就可以發揮出無限的價值。

爬蟲之後有兩條路可以走

一個技術走到黑，和反爬蟲作鬥爭，做數據採集定製或者採集數據銷售

一個是轉數據分析，數據採集清洗入口+分析可視化，一條龍

答錯地方了。。刪

這玩意有好方向的話來錢快！肯定有N多自由職業者