爬蟲入門到精通-mongodb的基本使用

本文章屬於爬蟲入門到精通系統教程第十講

在之前我們講解了如何爬取網頁(不管是非同步載入的還是普通的),但是爬取下來的數據該如何保存呢?

保存到文本文件?

可能有人會說那我保存在文本文件裡面,這樣也是可以的,但是到你需要用這個數據的時候,可能就會很麻煩了…

我今天爬取了10000部日本電影

假如說你要找蒼老師出演的,那麼你可能會說,我直接ctrl+f查找」蒼老師」不就行了

但是假如你想要找」蒼老師+無碼」怎麼辦呢???

這個時候就是體現資料庫的作用了。

Mongodb的介紹

為什麼用mongodb呢?

  1. 文檔結構的存儲方式
    1. 簡單講就是可以直接存json,list
  1. 不要事先定義」表」,隨時可以創建
  2. 「表」中的數據長度可以不一樣
    1. 也就是第一條記錄有10個值,第二條記錄不要規定也要10個值
    2. 對爬蟲這種很亂的數據來說,很適用 。

Mongodb的安裝

直接到 MongoDB Download Center選擇合適的版本下載安裝就可以了。

安裝完成後

windows用戶在

bin目錄下新建一個data的文件夾

然後在新建一個start.bat文件,內容寫上

mongod --dbpath ./data

後面每次只要直接打開這個.bat 文件mongodb就運行了

你可以直接選中start.bat,發送到桌面快捷方式,這樣你以後可以直接在桌面打開了

mongodb的基本使用

首先 pip install pymongo

總結

爬蟲經常用到的三條插入語句

下面的test2為表名,

  • test2.insert_one(xx) 插入一條數據
  • test2.insert_many(xx) 插入list
  • 最常用>>>test2.update_one({"x":1},{"$set":{"x":3}},upsert=True)
    • 第三條一般會在防止重複的數據被存到資料庫內 要用到

代碼都在 kimg1234/pachong

參考文檔

  • mongodb中文文檔

mongodb官方文檔

上次直播的視頻已經傳到百度雲了。。

鏈接: pan.baidu.com/s/1c1I670 密碼: h2r4

歡迎關注本人的微信公眾號獲取更多Python爬蟲相關的內容

(可以直接搜索「Python爬蟲分享」)


推薦閱讀:

[18] Python元組
一步一步教你用Python畫出專業的K線圖
如何看待微軟 Pyjion 的進展以及 CPython 性能優化的未來?
安卓運行Python的神器:QPython
Python中你可能不知道的platform

TAG:Python | 爬虫计算机网络 | 网页爬虫 |