目前做爬蟲,往後的職業發展方向是什麼?

目前在接觸數據爬取,想了解一下往後的職業發展方向都有什麼,做數據抓取的行業前景怎麼樣?


給定目標類型的頁面,如何選擇最有效的抓取路徑?
如何保證覆蓋率?
給定目標頁面,如何最有效的調度,保持更新?
如何判斷 url 不同,內容相同的頁面?
如何在不抓回頁面之前判斷內容相同頁面?
不給定目標頁面,如何判斷頁面是否有價值?
如何在不抓回頁面之前判斷頁面是否有價值?
如何從頁面中提取數據?
如何理解頁面上的信息?

1、所有以上過程都由演算法自動完成。
2、如果頁面有4000億呢?


謝邀,看到問題好久了,一直怕誤導別人,沒有答,今天睡不著,和你分享一下我的看法。畢業兩年,結合自身經驗來說下吧。

如果你是編程初學者,可以試著不使用框架,從語言的原生介面上面寫一套標準的HTTP API出來,這個還是比較考驗功力的,你可能需要好好複習一下計算機網路這本書。同時解析數據也可以提高你的基礎編程水平,正則表達式應該也就學會了。接下來你可能就會慢慢學會用抓包工具分析包從而實現模擬登錄,分析頁面js從而實現反加密,或者接觸到了驗證碼識別之類的更高級的玩意兒,也會接觸到多線程,線程池等各種亂七八糟的…對你的編程水平提高是大有裨益的。

但是話說回來,爬蟲有發展嗎?個人覺得很難。各種語言的爬蟲框架都已經數不勝數,輪子都幫你造好了,你剩下的工作就是寫個正則,把數據處理下,技術含量也太低了。不知道你見沒見過php仿站的,爬光一個網站的數據可能也就幾分鐘,動動手指配置一下就好了。

我曾經的工作就是爬各個省市交管局的違章信息,爬了老子兩個月,天天就盯著哪個網站又改版了,哪個網站又驗證碼了,真的是煩。當你百分之90的時間在寫正則表達式,這份工作你肯定做不久的。所以很慶幸辭掉了那份工作,當然那份工作還是幫我好好複習了一下大學的計算機網路課程。


搜索


看你的目的。爬蟲一般是有兩類目的

一類是爬數據做基礎數據
另外是爬數據做數據分析用

第一類情況只是臨時或者股東周期的採取數據,一般比較簡單
第二類是數據挖掘與分析

長遠來看。數據挖掘與分析適合做為職業規劃


爬蟲是手段,數據是目的。尤其是在大數據越來越火的今天,數據的積累和獲取已經越來越重要。有時候你沒有注意到的一點點小數據也許就可以發揮出無限的價值。

爬蟲之後有兩條路可以走

一個技術走到黑,和反爬蟲作鬥爭,做數據採集定製或者採集數據銷售

一個是轉數據分析,數據採集清洗入口+分析可視化,一條龍


答錯地方了。。刪


這玩意有好方向的話來錢快!肯定有N多自由職業者


推薦閱讀:

python如何爬取字幕組網站的電影鏈接地址?
我該如何用PHP的cURL獲取這個奇葩的網頁內容?
使用python爬取pixiv.net的圖片?
關於scrapy的crawlspider?
爬蟲怎麼保存圖片?

TAG:數據採集 | 爬蟲計算機網路 | 數據抓取 | 網頁爬蟲 |