標準化的互聯網採集工具的前景在哪裡?

有一些企業有專業的爬蟲工程師,也有很多企業連IT人員都沒有。但是對於互聯網大量數據的渴求不變,這個就需要採集工具,那麼這些企業是否願意收費來使用?


互聯網採集工具的歷史十分悠久,好像自從有互聯網,就有採集工具,大型綜合網路爬蟲也是一類採集工具。我從事這個行業有10年了,技術需要時時更新,需要時時學習新知識。從大的方面說,html到html5、從靜態網頁到大量ajax內容,而且現在越來越多的網站不像一個網頁展示系統了,而像一個會話系統,還會對訪客行為進行密切跟蹤和分析。所以,做採集工具是一個很有樂趣的工作,要不斷應對新問題。

近一年我開發的程序功能比較大的是彈窗採集,不用抓包工具,不用分析http消息,完全模擬人的動作,彈出一個窗口就跟定一個窗口,裡面的爬蟲機器人隨彈隨抓。再一個功能就是連續動作,把一系列滑鼠和鍵盤動作編排起來,模擬人的動作,逐個執行,就能激髮網頁上的javascript代碼執行複雜的會話。最近的開發重點是人類行為建模,通過大量收集行為樣本,提取行為特徵,通過一些機器學習演算法,建立行為模型,如果這個模型用在自己的網站上,可以用來反爬,如果為了突破反爬,那就盡量做到擬人,讓對方看不出來是爬蟲。

總之,開發採集工具軟體的工作十分有意思,但是作為一個公司來說,就需要投入大量資金和人力不斷開發出功能更強的工具。如果要做成標準化通用工具,那還得提高用戶體驗,滿足用戶群的使用需求,要做產品化。

大數據時代必須掌握強大的工具才能為大數據研究提供原料,而且要結構化的清洗後的數據才能用於數據挖掘運算,採集工具很重要


推薦閱讀:

pyspider 和 scrapy 比較起來有什麼優缺點嗎?
如何對使用了ssl pinning的APP(如知乎)進行抓包?
Python 如何將 Unicode 轉換到漢字?
scrapy 抓取的中文結果亂碼,請問如何解決?
數據抓取,網站怎麼找到加密轉換的那段js函數?

TAG:數據採集 | 爬蟲計算機網路 | 數據收集 | 大數據 |