05 爬取華為官網VMALL的手機評論

項目地址:copywang/spiders_collection

實現功能

  1. 爬取手機界面的所有手機評論列表
  2. 存儲到MONGODB

步驟

  1. 獲取首頁的手機列表,並獲取各個手機標題和詳情頁的URL
  2. 把第1步獲取的詳情頁URL分別打開,並獲取產品ID
  3. 根據產品ID結合URL,組合出評論頁的JSON請求並獲取JSON數據
  4. 首頁的JSON數據中包含最大的評論頁數
  5. 使用最大評論頁數作為循環,獲取得到所有頁的評論

遇到的問題

  1. 返回的JSON數據包含一些亂七八糟的開頭,不能使用json.loads()方法生成字典
  2. 有時候請求評論頁JSON會出現亂碼
  3. 暫時想不到多線程在哪裡使用合適

改進

  1. 使用json.loads()方法
  2. 使用多線程

爬取後的數據:

推薦閱讀:

關於python中beautifulsoup的問題?
一個關於python3 requests庫使用代理訪問IP查詢網站的問題?
scrapy可以進行線性/順序抓取嗎?
Python 爬蟲如何機器登錄新浪微博並抓取內容?
請問爬蟲如何爬取動態頁面的內容?

TAG:Python | 爬虫计算机网络 |