網路搜索引擎為什麼又要叫爬蟲?

最近在嘗試用python寫一個簡單的爬蟲,所以突想到一個問題,為什麼搜索引擎又要叫爬蟲呢,谷歌了,沒找到答案,所以到知乎上來看看有沒有人知道 。


sorry,好久沒上來了,剛看到,根據我的了解是:搜索引擎大致可分為四個子系統:下載系統、分析系統、索引系統、查詢系統。而爬蟲只是下載系統,至於為什麼叫做爬蟲,我自己理解是形象類比吧


因為網頁可以組織為一個異常巨大的有向圖,這個圖的節點上百億個。抓取程序從其中一個節點開始按照深度優先和廣度優先相結合的方式遍歷網路,直觀的看就像一個或者多個蜘蛛在網路上爬行。因此spider(爬蟲、蜘蛛)是一個非常形象的名字。


百度百科上說:網路爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重複上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。

網上現在有很多直接可以用的爬蟲工具,樓主你自己可以用用看,用了就好理解了。也可以自己搞個python代碼謝謝看。不過對小白的人來說,貌似就有點難了啊。我推薦幾款工具,比如八爪魚,火車頭,還有搜數。這些工具可以直接用。前面兩款功能很全面噢,但是使用上貌似比較複雜,最後一個功能少,但是賊簡單,看你的需求吧。


搜索引擎從來沒叫爬蟲,搞清楚關係,爬蟲只是搜索引擎的組成部份之一,就是出去收集外部數據。http://www.baidu.com/baidu?wd=%C5%C0%B3%E6tn=monline_4_dg

不過,我很奇怪,你是怎麼google的呢?


通俗的叫法吧。。。似乎從一開始就都是這麼叫的。
沒研究過。


爬蟲不等於搜索引擎, 是搜索引擎一部分, 用於收集信息(網頁內容)
因為用來扒網站所以叫爬蟲,也叫蜘蛛.
信息收集完後進行離線分析分類索引,才能給真正的搜索引擎部分使用


只是一種簡約的說法、認真你就輸了


推薦閱讀:

python抓取新浪微博,求教!!?
scrapy可以進行線性/順序抓取嗎?
python爬蟲的中文亂碼問題?
如何解決Python selenium在遠程shell下無法連接瀏覽器的問題?
如何在 python 中使用 beautifulsoup4 來抓取標籤中的內容?

TAG:爬蟲計算機網路 | 網頁爬蟲 |