有免費的網路爬蟲軟體使用嗎?

我是金融從業人員~想從網頁上爬些數據保存成自己需要的格式做下分析自用~但是我不知道爬下來的數據具體能夠做到哪些格式~~我想問一下爬蟲除了找專業的人士寫之外~就沒有什麼公司提供一個爬蟲軟體什麼的專供我這種業餘人士使用么?

也許問的很業餘~專業人士勿笑~..


最近我們在做類似的工作,一方面接單獨的定製需求,另一方面做一個無需編程的智能雲爬蟲網站。

可以來我們這裡看看:造數 - 最好用的雲爬蟲工具

我們精心製作了視頻:造數雲爬蟲使用教程

--------------------------------------------------------------


因為剛開始三周左右,還有很多項目需要大家的意見來完善。

我們現在可以滿足的範例如下:

比如你看到這樣的網站,信息很多,但你只想要一個excel表,告訴你地址,大小,總價和均價。

網址粘到我們低調的首頁搜索框以後,選擇你要哪一類數據,選一個,同類的就幫你選上了。

最後你會得到下面這樣的列表:

註冊好以後我們會給你生成一個控制台,然後選擇你喜歡的格式輸出就好了。

Excel也好,csv,json也罷,統統沒問題。


(好多人點贊,我就把我的回答再好好的完善一下)
免費的爬蟲軟體,目前最好用的就是八爪魚採集器。現在全球65萬的用戶都選擇八爪魚採集器,口碑就是最好的證明。

市場上那麼多採集器可以選,為什麼選擇八爪魚呢?選擇一款好的免費採集工具到底最終要的衡量標準是什麼呢?

1. 必須能採集任何網站,如果弄了半天你想採集的網站不支持那就悲劇了,八爪魚是市面上採集網站覆蓋最廣的工具,支持任何網站的採集,而很多其他採集器只能覆蓋大概60%的網站,大多數採集器對於需要登錄,翻頁,瀑布流、Ajax腳本非同步載入數據等不能採集。

2. 學習上手容易,如果一個工具很牛逼,但是你不會用也是白扯,八爪魚不需要你學習任何編程知識,也無需你懂網頁通信原理,HTML,Javascript等技術背景,對於文科背景或者沒有採集經驗的小白是最佳選擇,對比其他採集器,大多數需要你懂得技術背景,比如HTML,Javascript腳本分析,網路抓包,正則表達式匹配等,有些採集器還必須要寫代碼才能用。

3. 還需要操作簡單,八爪魚是國內唯一一家支持一鍵智能採集的爬蟲工具,獨創的智能模式,只需要用戶輸入要採集的網址(包含要採集的數據列表),點擊一個智能採集按鈕,數據就全自動的採集下來了,就像百度一樣,看似一個簡單的搜索框,其實背後的技術很複雜,當然對用戶來講,簡單好用才重要,背後複雜高深的技術並不重要,所有優秀的產品一般都符合這個特徵,就像蘋果手機,正面只有一個按鈕,但是背後卻影藏了指紋解鎖等技術。除了智能模式,八爪魚還有自定義模式,通過點擊滑鼠選擇要採集的數據,八爪魚會自動生成可視化的採集流程度,非常容易理解和使用,到目前為止,八爪魚也是全球範圍內唯一具備可視化自定義流程的採集工具。

4. 當採集量很大,數據更新要求高的時候,必須能支持大規模採集,試想一下,如果你需要百度、58同城、微信、淘寶、京東、大眾點評等平台時,上面的數據動輒幾千萬,每天更新幾百萬,如果你用一台電腦採集,這將是Mission impossible(碟中諜:不可能完成的任務),然而大多數的採集工具都是單機版工具,顯然不行,八爪魚在2014年第一個版本上線的時候,就率先在提出了「雲採集」的概念,八爪魚自建了一個由5000多台雲伺服器組成的龐大雲採集集群,很多人可能沒概念,5000台相當於早期雅虎搜索引擎的規模,這些伺服器24*7的在為八爪魚用戶提供數據採集服務,單個用戶在八爪魚的採集量可以達到每天過千萬條數據,在大數據的背景下,八爪魚是業內唯一具備此能力的平台。

5. 可以應對常見防採集措施,可能你第一天接觸採集的時候不需要了解防採集是什麼,但是當你採集數據一段時間之後,相信你就會對此印象深刻,簡單來講,網站為了防止自己的數據被機器程序大規模採集,而採取了一系列技術手段來限制採集,這就是防採集,常見的防採集手段有登錄、封IP,驗證碼、Ajax非同步載入,瀑布流等,這些方法都非常有效,一般採集工具碰到這些的時候大多都歇菜了,如果你是一個自己寫爬蟲打碼的工程師,相信你對此深有體會,八爪魚致力於打造能突破一切防採集手段的工具,以上這些措施八爪魚都可以搞定,當然也不止這些,八爪魚甚至能像人瀏覽網頁時一樣,如果網頁格式有變化,採用多種模板,或者彈出一個廣告、登錄、錯誤、驗證碼等頁面,八爪魚也能根據不同情況採用不同應對措施,包括自動識別和輸入驗證碼等,這其中最難搞的一個就是IP限制,IP限制常用的解決方法有代理IP,VPN等,這些都要求你有大量的IP資源,然而IP資源是需要成本的,一個IP一個月的成本至少在50元以上,碰到主流的網站比如大眾點評,阿里巴巴、天貓這些,如果要大規模採集,必須有成千上萬的IP才行,八爪魚的雲採集集群IP不是固定的,而是像個水池一樣,不斷有新的IP加入,用過的IP退出,這樣就有幾十萬上百萬的IP可以使用,同時,一個採集任務還會被隨機分配到很多台不同IP的雲採集伺服器上去,速度快效率高、還防採集。

6.其他,當然每個人採集需求都不一樣,你可能還很看重其他的一些功能特點,比如是否有大量的學習教程資源、配置好的採集規則模板、活躍的交流社區、完善的客服支持、以及實現全自動採集同步數據的API介面等等,不用說、在這些方面八爪魚都為大家考慮到了,我就不一一贅述。

7. 免費!免費!免費!最重要的事情說三遍,八爪魚產品的設計有別於傳統的採集工具或其他軟體,傳統的工具軟體一般都是按照功能收費,個別有免費版的也是把核心功能都給閹割點了(話說不閹割咋收費呢, ),八爪魚完全不同,免費版本具備所有功能,這點也是很多其他採集器沒有的,到現在還有一些採集工具使用加密狗等方式來保護被閹割的功能,作為用戶來講我也是很無語,對於一般的需求而言,免費版本就滿足所有需求了,當然,八爪魚是個成功的商業產品,也設置了一些增值服務,如私有雲等等,來滿足高端付費企業用戶的需要,用戶都可以根據需要選擇。

廢話不多說,如果你想要的上面都有了,那沒啥好猶豫的了,選擇困難症、處女座也都該滿意了吧,能動手的咱絕對不動口:

戳這裡,免費下載八爪魚

戳這裡,八爪魚學習教程資料

忘了啦,你還不知道八爪魚長什麼樣,在這個看顏值的時代,必須爆圖,有圖有真相,我以採集京東商品數據為例,給大家截圖看一下八爪魚的採集界面:

1. 下載並安裝八爪魚客戶端軟體之後,打開,主界面長這樣,簡潔大方,有木有?:

2. 看到APP採集了吧,(全球首創的技術,亮瞎我的鈦合金**),看到內置國內主流網站採集了吧(零門檻我喜歡),喜歡就點這裡慢慢去了解,這裡就跳過,重點講一下主頁中間的智能採集,在輸入框中,輸入我們要採集的網址:
https://list.jd.com/list.html?cat=9987,653,655
然後點擊右邊的放大鏡按鈕立即採集。稍等幾秒鐘,數據就出來了,我們再修改一下列名、刪掉不需要的列(就跟excel一樣),就得到了下面這個結果(4不4很簡單 ):

當然啦,這只是用最簡單的智能模式,更為強大的自定義模式和簡易採集模式還是留給你自己去探索吧,用好自定義模式,你就無敵了,采遍互聯網無敵手號稱採花大盜的就是你了。

我知道有些人就是一目十行懶得看文字,那看圖吧,功能和特色概覽圖:

部分典型用戶:

另外,我列一個八爪魚(公司名字叫深圳視界信息技術有限公司)的資質給大家參考:

深圳視界信息技術有限公司是領先的大數據工具與平台提供商。多年來致力於企業級數據整合、數據採集、清洗、分析及挖掘,在大數據領域擁有多項國際領先的知識產權和專利。旗下「八爪魚」大數據採集平台、「數多多」數據資源交易平台處於行業領先地位,企業用戶數超過30萬。

公司創始人兼CEO劉寶強先生,畢業於國防科技大學,曾任職於morningstar(晨星資訊),負責morningstar(晨星資訊)全球金融大數據的收集和分析平台。曾在芝加哥(Morningstar全球總部)工作,在矽谷培訓學習,對全球大數據產業發展有深入研究。

2015年1月獲得國家重點軟體企業大數據行業上市公司「拓爾思」500萬天使投資

2015年6月獲得雙軟認證

2015年9月在美國洛杉磯開設分公司Octoparse Data Inc,開展北美業務

2015年11月獲得深圳市高新技術企業認證

2016年1月,《中國大數據企業排行榜》獲五星評級

2016年5月,獲得「雲上貴州」大數據商業模式大賽「雲路獎」

2016年6月,獲得深圳市科創委專項資金扶持

2016年6月,獲得知名投資機構「協同創新基金」Pre-A投資

2016年10月,獲得阿里雲「合作夥伴授權牌」銀牌

2016年10月,獲得「雙創未來」2016年成都·深圳青年創客電視大賽一等獎

2016年10月,獲得復星集團全球創新創業大賽第一名

2016年11月,獲得世界互聯網大會(烏鎮)中國創客40強

2016年11月,獲得大數據創新研究院「大數據創業企業100強」

2016年11月,獲得國家高新企業認證

2017年1月,八爪魚旗下自主研發的數據分析和可視化平台「微圖」上線

2017年8月,獲得全球潮人創新創業大賽第一名

老司機要開車了,上車鏈接在這裡:

戳這裡,免費下載八爪魚

八爪魚學習教程資料

如果我寫了一天的內容對你有用,歡迎點個贊哈,O(∩_∩)O謝謝



使用 Chrome 瀏覽器插件 Web Scraper 可以輕鬆實現網頁數據的爬取,可以實現不寫代碼,指哪爬哪的目標。
當然你得爬牆去chrome一趟:

https://pic1.zhimg.com/v2-80728428c8af4c1f360d70c3ddf32820_b.png

Web Scraper 的學習內容雖然簡單,但你還得學點東西。比起寫代碼,已經強很多了。

  1. 官網中的視頻教程 http://webscraper.io/tutorials
  2. 知乎@陳大欣 的回答 中寫了詳細的步驟,並錄製了視頻教程。
  • 視頻教程(1):http://www.bilibili.com/video/av9664397/
  • 視頻教程(2):http://www.bilibili.com/video/av9708200/
  • 這個問題來源 零基礎如何學爬蟲技術? @陳大欣 在文章中把 Excel 爬蟲,web scraper,代碼爬蟲做了比較分析

https://pic1.zhimg.com/v2-e71376447a0299cbb2bc2ebdfdf41c60.png

關注這個公眾號的都是奇才。


謝邀,不笑不笑。術業有專攻而已。
網路爬蟲要解決的問題有如下幾點:
1,頁面下載。頁面上往往有我們需要的信息,如鏈接,圖片,點評等等。前提是能把他們下載下來。
2,鏈接提取。初始化為一些鏈接,然後不斷抓取的新的鏈接。
3,URL管理。防止重複和陷入死循環。
4,內容分析和管理。抽取頁面上的信息,並存到資料庫或文件系統中。

根據題目推測,你要的抓的目標網站比較少,抓取的信息,也比較明了。似乎比較簡單。我是用java語言的,以java為例。
1,如何爬取?一般都是用開源庫如HttpClient抓取目標網頁。可能還需要模擬登錄——因為相關網站的某些頁面需要登錄後才可以訪問。
2,如何提取?下載下來的頁面,也是用開源庫解析的。自己用正則,太麻煩了- - 有jsoup,解析很方便。能很迅速的提取網頁結構中的節點信息。
3,保存格式?感覺要先說說保存方法。一般是保存到文件系統和資料庫里吧。至於格式,你提取出來關鍵信息以後,怎麼保存都隨意了。感覺金融方面應該比較適合保存到資料庫里,或者保存到Excel里比較好。這方面有POI——java讀寫Excel的組件。
4,爬蟲軟體?我沒接觸過有gui的爬蟲軟體=_=就自己寫了一些玩玩。不過有許多開源的爬蟲,Java開源Web爬蟲分類列表 你可能要理解,修改源代碼。太業餘沒法玩的。
覺得好就給好評唄 =_=


僅僅是下載的話用wget一條命令就可以了,自動保存網站上所有內容到本地。
例如:

wget -r -nc -np "http://www.zhihu.com/"

linux下一般系統就有這個命令,windows下可以自己裝一個,參考:http://users.ugent.be/~bpuype/wget/
至於數據分析,根據你的需求分析就是了。


之前同學有用過帶界面的程序,貌似是專門爬某門戶網站新聞用的。但是沒用多久就跟我說想爬淘寶的商品信息,怎麼辦,我告訴他自己寫一個,然後就沒有然後了。爬蟲這種東西針對性很強,每個網站的就夠,數據獲取方式,數據結構千變萬化,所以自己寫個沒什麼壞處(如果你是個程序員或者經常從事相關的數據搜集工作)。

可以從java入手,很容易找到中文教程。
httpClient+jsoup
先試著爬一個不用登陸,安全級別低的網站,例如成人網站(現在電腦里還有某成人網站所有電影的磁力連接。。)
然後爬一個需要登陸的網站,你會就會去研究模擬登陸,http協議,cookie這些東西
然後再爬一個難度較高的網站,新浪微博啦,豆瓣啦,你就會研究識別驗證碼,反爬蟲機制之類的東西
如果你想把爬下來的東西做成像百度,谷歌一樣的搜索引擎,可以研究lucene,solr這些東西
如果你想提高你的爬蟲效率,你就會研究多線程,分散式這些東西,搞個mongoDB玩玩也是不錯的

這些都是我今年年初做畢業論文的時候學到的,總之東西都不難,難的是真正動手去做,越做越有自信。


之前寫過一個爬蟲程序工具,適合無代碼開發能力的人使用,你要需要的話,可以給你


網路爬蟲是個「古老」的領域,自互聯網誕生就有需求去爬其內容,網路爬蟲同時又是一個年輕的領域,互聯網技術日新月異的發展,網路爬蟲必須跟著發展。

時至今日,網路爬蟲必須很好地解決javascript動態內容的抓取、html5的支持(甚至抓取html5的效果和圖表)、非同步載入的內容等等,另外,隨著大家越來越看重數據價值,還要有很好的反爬機制,比如,不要在雲伺服器上用固定IP做爬蟲,而是分散式的協同化方案。

從行業發展來看,產品越來越集中,免費是主流的,甚至開源。最近我對這個領域做了總結和重新思考,將網路爬蟲進一步細分成即時網路爬蟲和收割式網路爬蟲,即時網路爬蟲採用Python開源的發布模式,方便大家嵌入到自己的數據處理系統中,可以關注我新建的知乎專欄。


自己寫過爬蟲。以我的水平來看,應該說很難做出一個統一的爬蟲軟體,因為各網站的頁面格式、登錄驗證方式、動態腳本都不一樣,可能需要具體網站具體分析。比較厲害的爬蟲都在各大搜索引擎公司,也是公司的命根子,不可能放出來給人用的。
如果編程有些基礎的話,可以試試用Python配合BeautifulSoup庫寫一個爬蟲,比較簡單。


這是我在知乎裡面看到最碉的excel應用,推薦給你。

零基礎如何學爬蟲技術? - 知乎

點進去你就可以看到《 8次滑鼠點擊,教會你用excel做網頁數據爬蟲

當然如果你不滿足這個,你可以試試神箭手雲爬蟲

神箭手雲爬蟲-雲端在線爬蟲開發平台-神箭手雲爬蟲


這個平台是我目前用過的入門比較簡單,可定製很強的雲爬蟲。

看一下開發文檔,自己寫一個爬蟲不難。

比如我自己都寫了好幾個

這是爬蟲的代碼,這個爬蟲主要是用js來寫的,圖片中街區的部分主要就是爬蟲要爬取的數據判斷。他的判斷這裡主要是用的css來爬取,高級一點的你還可以用正則,不過不重要,重要的是能爬到我們想要的數據。

這個是爬取結果,只是我自己寫的,所以主要欄位是這個,你需要爬金融數據什麼的,就需要你自己去寫具體要取什麼數據了。

爬取的數據支持直接導出到excel之類的,也方便你分析。

還有一個很重要的點,就是這個平台免費啊,是免費雲爬蟲,也就是說你寫好了爬蟲開始運行後,你就可以關掉電腦,第二天起來再登陸進去看數據了。很多軟體都是需要你開著電腦去爬的。


可以call我啊,我有能力給你開發穩定的爬蟲。


我覺得集搜客一般 入門上手有點費勁 操作說明寫的不詳細 對照操作很費勁


http://import.io,業餘人士半天就能上手,輸入網址點幾下就能爬,目前免費,外國的,但並非所有的網頁都能爬,應付常規工作應該夠了。樓上講的學java python學習成本太高,不建議搞金融的單獨花時間學這些


老王賣瓜,不誇是傻瓜。哈哈哈,當然我這是也是真的好瓜

推薦下爬山虎採集器 ,大概說說它的特點吧

  1. 一鍵提取數據,簡單易學,通過可視化界面,滑鼠點擊即可抓取數據
  2. 快速高效,內置一套高速瀏覽器內核,加上HTTP引擎模式,實現快速採集數據
  3. 適用各種網站,能夠採集互聯網99%的網站,包括單頁應用Ajax載入等等動態類型網站

相比於同類的採集軟體,它在用戶體驗、抓取效率上做了一個平衡。

希望可以幫助你。


看看ForeSpider,現在使用率比較高的軟體,我身邊的搞數據的朋友都是用的他們,跟別的軟體相比,採集速度快,採到的數據還很全面,你可以下個免費版感受一下。


用python的話,寫正則比較頭疼,最近在研究用集搜客生成xslt後,python怎樣直接使用


python寫爬出比較容易,可能的話就自己寫個,不能就上淘寶花錢找人寫,不貴

下載的話,推薦idm,批量下載很強大


推薦一個爬蟲軟體給你,免費、好用、速度比較快:http://www.sensite.cn/bget,希望能給樓主帶來幫助。


現在正在努力賺取積分,自己不會寫代碼真頭疼


可以使用維易網路爬蟲軟體,在線採集,不需要安裝桌面軟體。相當好用,文章提取很智能。設置容易。很不錯。目前也是免費的。


推薦閱讀:

豆瓣是如何屏蔽爬蟲的?
python爬蟲中文編碼的問題?
一份優秀的網路爬蟲工程師簡歷是怎麼樣的?
Python 爬蟲進階?
對於一些加密的動態網頁的數據採集,除了通過phantomjs還有沒有別的通用的方法?

TAG:爬蟲計算機網路 |