標籤：

Python 爬虫计算机网络

05 爬取華為官網VMALL的手機評論

02-03

項目地址：copywang/spiders_collection

實現功能

爬取手機界面的所有手機評論列表
存儲到MONGODB

步驟

獲取首頁的手機列表，並獲取各個手機標題和詳情頁的URL
把第1步獲取的詳情頁URL分別打開，並獲取產品ID
根據產品ID結合URL，組合出評論頁的JSON請求並獲取JSON數據
首頁的JSON數據中包含最大的評論頁數
使用最大評論頁數作為循環，獲取得到所有頁的評論

遇到的問題

返回的JSON數據包含一些亂七八糟的開頭，不能使用json.loads()方法生成字典
有時候請求評論頁JSON會出現亂碼
暫時想不到多線程在哪裡使用合適

改進

使用json.loads()方法
使用多線程

爬取後的數據：

推薦閱讀：

※關於python中beautifulsoup的問題？
※一個關於python3 requests庫使用代理訪問IP查詢網站的問題？
※scrapy可以進行線性/順序抓取嗎？
※Python 爬蟲如何機器登錄新浪微博並抓取內容？
※請問爬蟲如何爬取動態頁面的內容？

TAG:Python | 爬虫计算机网络 |