05 爬取華為官網VMALL的手機評論
02-03
項目地址:copywang/spiders_collection
實現功能
- 爬取手機界面的所有手機評論列表
- 存儲到MONGODB
步驟
- 獲取首頁的手機列表,並獲取各個手機標題和詳情頁的URL
- 把第1步獲取的詳情頁URL分別打開,並獲取產品ID
- 根據產品ID結合URL,組合出評論頁的JSON請求並獲取JSON數據
- 首頁的JSON數據中包含最大的評論頁數
- 使用最大評論頁數作為循環,獲取得到所有頁的評論
遇到的問題
- 返回的JSON數據包含一些亂七八糟的開頭,不能使用json.loads()方法生成字典
- 有時候請求評論頁JSON會出現亂碼
- 暫時想不到多線程在哪裡使用合適
改進
- 使用json.loads()方法
- 使用多線程
爬取後的數據:
推薦閱讀:
※關於python中beautifulsoup的問題?
※一個關於python3 requests庫使用代理訪問IP查詢網站的問題?
※scrapy可以進行線性/順序抓取嗎?
※Python 爬蟲如何機器登錄新浪微博並抓取內容?
※請問爬蟲如何爬取動態頁面的內容?