節約時間,不廢話介紹了,直接上例子!!!輸入以下代碼(共6行)
爬蟲結束~~~有木有滿滿成就感!!!
以上代碼爬取的是這個頁面,紅色框框裡面的數據,也就是豆瓣電影本周口碑榜。
下面開始簡單介紹如何寫爬蟲。
爬蟲前,我們首先簡單明確兩點:
1. 爬蟲的網址;
2. 需要爬取的內容。
第一步,爬蟲的網址,這個…那就豆瓣吧,我也不知道為啥爬蟲教程都要拿豆瓣開刀–!
第二部,需要爬取的內容。
這也正是上面6行代碼中的最後一行,也可能是新手覺得最難的地方了。代碼的這個部分就是獲取數據。
滑鼠點擊需要爬取的數據,這裡我們點「看不見的客人」,如圖所示。
2.看到大紅色框框里的東西,是不是和我們最「重要」的代碼有很多相似的地方。
再看來最後一行代碼中最「重要」的部分。
『//td[@class=」title」]//a/text』
//td :這個相當於指定是大目錄;
[@class=」title」]:這個相當於指定的小目錄;
//a :這個相當於最小的目錄;
/text:這個是提取其中的數據。
爬蟲介紹結束,看完你也該試試手了。
試試爬「即將上映」
推薦閱讀:
TAG:Python |