爬蟲數據礦工的命運?

爬蟲是大數據時代數據礦工的工具。那麼數據礦工的命運如何?
我的思考:
1/不會數學永遠難逃礦工命運。。。。無論是統計學,還是最優化,還是人工智慧,還是隨機過程,傅立葉分析,小波分析,時間序列分析,這都是沒有邊的高科技。。。。所以大數據絕對是學數學的福音。
2/我們也可以想像,數據礦工的能力取決於反反爬。但是要清醒的明白:這不是主流。主流是擁有海量數據的公司。如阿里,他們有自己的內部黃金礦。而一般人只能偷挖他的數據。。。。或者只能去挖一些價值比較低的數據。是的,有人天生就有一座黃金礦,鑽石礦。
3/在別人有瑪瑙,黃金,鑽石礦。而大多數人只能挖點沙子。這就是數據礦工的命運。
4/未來一定還會有這樣的故事,某某人挖到了黃金,結果大家蜂擁而至,成就一段礦工培訓的傳奇。
5/在後來你還會發現,你會收到數據分析公司的壓迫。他們握有客戶,你只能挖礦。。。。。
6/在後來,你會發現,TMD有了智能挖礦機。。。。。。
7/悲劇的命運。。。。數據礦工。

各位什麼看法。


老實講你上面講的這些,大部分都是有些道理站得住腳的。不過,你忽略了一個重要因素——大部分「大數據創業公司」事實上本身是沒有多少數據的

無論一家公司標榜自己數據分析水平多麼牛,沒有數據,你分析什麼呢?畢竟 BAT 這樣海量數據的公司數量有限,剩下的小公司想玩,就只有爬蟲去抓數據。

舉個例子,我知道幾家查詢企業信息的公司,企業徵信_譽存科技 、 啟信寶|企業查詢 、企查查 - 企業查詢 等,據我所知,這些公司都沒有多少自己的數據,大部分數據還是來自互聯網,來自網路爬蟲,而他們好像都活的非常滋潤,而且查詢的結果都比較令人滿意(第一個付費,第二、三個有免費版,不過我相信,「買貴的東西是有道理的」)。

另外,我沒有看明白題主擔憂的是什麼。是作為一個爬蟲開發者對未來的擔憂?我覺得要是擔心未來發展,大可轉行便是。但是,只要有網路,爬蟲就永遠不會消失。就如同 Python,爬蟲的入門門檻也非常低,但是好多人以為會用 Python 寫 「hello, world.」就是學會了 Python,這就說不過去了,爬蟲同樣如此,入門容易,提升的曲線比較陡峭,複雜的爬蟲——比如百度、Google 的全網抓取爬蟲——的編寫難度一點不比所謂數據分析簡單。

最後,說到底只是分工不同,搞技術的人,只要有真技術在手,有什麼擔憂呢?不爽就換個環境,分分鐘炒了你的老闆。


我不知道為什麼你這麼悲觀,我自己就是做爬蟲的,帶了一個團隊專門做爬蟲。 公司也有數據挖掘的部門,離我們很近。
我得到的感覺是, 再好的挖掘技術,比不上增加一個有效的數據維度。
而新的維度,更容易被我們發現,而不是做分析的。
就算用個很簡單的決策樹,維度多了一個跑得結果要好很多。
至於怎麼增加維度,那就是眼光問題,和你會不會數學無關。和你是不是一個喜歡從眾的人有關,越被集體影響越不太可能發現新的維度。
來我這裡面試的,大部分做爬蟲的都想之後從事數據挖掘,他們都是被人工智慧洗腦嚴重,根本不懂人工智慧要怎麼樣產生。

我覺得你不懂統計也沒關係, 可以往基礎走。 搭建分散式數據分析框架,分散式爬蟲,分散式儲存解決方案。不管哪種,現在是搞數據挖掘的多,會搭建(或者說搭建的好)分散式處理系統的人少。
大學出來的人,都和導師搞過幾個案例,做過幾個外包分析項目, 有幾個有經驗做搭建的活?

你悲觀是在於你根本沒意識到自己的價值,從事最火的職業竟然無法意識到自己的價值,你應該換家公司了。
PS:(阿里,騰訊)他們不做爬蟲嗎? 太天真了。


一個行業越成熟,分工就越明確,整個鏈條也越穩定。每個行業都有「礦工」,我是鐵定了心只做大數據礦工,把爬蟲做的最好用。

就像一部智能手機,高端的技術濃縮在幾個晶元中,研發不成那個晶元,能做成富士康也很了不起。

所以,最重要的是選定行業位置,站住了


想多了 自尋煩惱


我挺適合回答這個問題。

我在公司的職位是「高級數據挖掘工程師」,但因為各種各樣的原因,除了數據挖掘之外,我還做了很多爬蟲的工作。至今為止爬過的網站有:淘寶、京東、知乎、新浪微博、搜狗微信、企業工商信息、獵聘、各大手機應用市場以及多個手機上的APP數據等。當然都是那種合法的。

爬蟲技術的話,和數學無關。我寫Python,沒用現有的爬蟲框架,我有一套自己維護的爬蟲框架,用著還挺順手。驗證碼我直接接入打碼平台,封我ip我直接買的代理ip。所以,爬上邊那些簡單的網站,目前問題還不是很大。

爬蟲的命運怎麼能比較悲劇呢?除了工資之外,我還利用爬蟲技術接私活,每個月的收入平均也在5位數。不要悲觀,任何智能挖掘機,都代替不了爬蟲工程師的。火車頭、集搜客都不行。如果你再會有些分析、挖掘、可視化的技術,那就更好了。

騷年,加油吧。


就說一點,立志做大數據,甚至人工智慧的學生或職場新人,除了找API之外,就只能自己去爬了,這是數據菜鳥做到數據geek的必由之路。


為什麼需要礦工?
因為不是每個瓮都是BAT,而即使是BAT也需要其它家的數據。有金礦的羨慕有鑽石礦的,鑽石礦還羨慕有石油天然氣的。。。

一個能高效率、低成本、指哪爬哪並結構化存儲+增量更新的礦工也是有技術含量的活吧。


如果你把自己當成楚留香應該會舒服些


爬蟲工具,大數據時代的必備!好日子剛開始,我們急需爬蟲大牛!


所以,最好跟著擁有金礦,鑽石礦的主,別被沙子蒙蔽了眼睛!


推薦閱讀:

標準化的互聯網採集工具的前景在哪裡?
pyspider 和 scrapy 比較起來有什麼優缺點嗎?
如何對使用了ssl pinning的APP(如知乎)進行抓包?
Python 如何將 Unicode 轉換到漢字?
scrapy 抓取的中文結果亂碼,請問如何解決?

TAG:Python | 爬蟲計算機網路 | 大數據 | 網頁爬蟲 | 數據抓包 |