通俗的講,網路爬蟲到底是什麼?


就是把你手動打開窗口,輸入數據等等操作用程序代替。用程序替你獲取你想要的信息。


網路蜘蛛(Web spider)也叫網路爬蟲(Web crawler)

[1]

,螞蟻(ant),自動檢索工具(automatic indexer),或者(在FOAF軟體概念中)網路疾走(WEB scutter),是一種「自動化瀏覽網路」的程序,或者說是一種網路機器人。它們被廣泛用於互聯網搜索引擎或其他類似網站,以獲取或更新這些網站的內容和檢索方式。它們可以自動採集所有其能夠訪問到的頁面內容,以供搜索引擎做進一步處理(分檢整理下載的頁面),而使得用戶能更快的檢索到他們需要的信息。
網路爬蟲始於一張被稱作種子的統一資源地址(URLs)列表。當網路爬蟲訪問這些統一資源定位器時,它們會甄別出頁面上所有的超鏈接,並將它們寫入一張"待訪列表",即所謂"爬行疆域"(crawl frontier)。此疆域上的統一資源地址將被按照一套策略循環訪問。如果爬蟲在他執行的過程中複製歸檔和保存網站上的信息,這些檔案通常儲存,使他們可以被查看。閱讀和瀏覽他們的網站上實時更新的信息,並保存為網站的「快照」。大容量的體積意味著網路爬蟲只能在給定時間內下載有限數量的網頁,所以要優先考慮其下載。高變化率意味著網頁可能已經被更新或者刪除。一些被伺服器端軟體生成的URLs(統一資源定位符)也使得網路爬蟲很難避免檢索到重複內容。


把別人網站的信息弄到自己的電腦上,再做一些過濾,篩選,歸納,整理,排序等等,如果數據量足夠大,演算法足夠好,能給別人提供優質的檢索服務,就可以做成類似google或baidu了


能夠自動訪問互聯網並將網站內容下載下來的的程序或腳本。

可以看成一個簡陋,沒有圖形界面,自動運行的瀏覽器。


網路文本自動下載器!


機器人


將網路中的信息下載下來,然後進行一定的處理得到你想要的信息。


推薦閱讀:

有沒有python爬蟲視頻教程推薦啊?
python模擬登陸的時候,別人用的是js生成的驗證碼(純字元)如何獲得生成的動態頁面?
為什麼使用BeautifulSoup時,把解析器換成lxml就出錯?
如何從零基礎開始寫一個關於搜索知乎答案的python爬蟲?
如何用python 寫一個爬蟲用來爬P 站特定標籤下的高贊作品?

TAG:Python | 爬蟲計算機網路 | Nutch |