爬蟲入門到精通-mongodb的基本使用
01-24
本文章屬於爬蟲入門到精通系統教程第十講
在之前我們講解了如何爬取網頁(不管是非同步載入的還是普通的),但是爬取下來的數據該如何保存呢?
保存到文本文件?
可能有人會說那我保存在文本文件裡面,這樣也是可以的,但是到你需要用這個數據的時候,可能就會很麻煩了…
我今天爬取了10000部日本電影
假如說你要找蒼老師出演的,那麼你可能會說,我直接ctrl+f查找」蒼老師」不就行了
但是假如你想要找」蒼老師+無碼」怎麼辦呢???
這個時候就是體現資料庫的作用了。
Mongodb的介紹
為什麼用mongodb呢?
- 文檔結構的存儲方式
- 簡單講就是可以直接存json,list
- 不要事先定義」表」,隨時可以創建
- 「表」中的數據長度可以不一樣
- 也就是第一條記錄有10個值,第二條記錄不要規定也要10個值
- 對爬蟲這種很亂的數據來說,很適用 。
Mongodb的安裝
直接到 MongoDB Download Center選擇合適的版本下載安裝就可以了。
安裝完成後
windows用戶在
bin目錄下新建一個data的文件夾
然後在新建一個start.bat文件,內容寫上
mongod --dbpath ./data後面每次只要直接打開這個.bat 文件mongodb就運行了你可以直接選中start.bat,發送到桌面快捷方式,這樣你以後可以直接在桌面打開了
mongodb的基本使用
首先 pip install pymongo
總結
爬蟲經常用到的三條插入語句
下面的test2為表名,
- test2.insert_one(xx) 插入一條數據
- test2.insert_many(xx) 插入list
- 最常用>>>test2.update_one({"x":1},{"$set":{"x":3}},upsert=True)
- 第三條一般會在防止重複的數據被存到資料庫內 要用到
代碼都在 kimg1234/pachong
參考文檔
- mongodb中文文檔
mongodb官方文檔
上次直播的視頻已經傳到百度雲了。。
鏈接: https://pan.baidu.com/s/1c1I670c 密碼: h2r4
歡迎關注本人的微信公眾號獲取更多Python爬蟲相關的內容
(可以直接搜索「Python爬蟲分享」)
推薦閱讀:
※[18] Python元組
※一步一步教你用Python畫出專業的K線圖
※如何看待微軟 Pyjion 的進展以及 CPython 性能優化的未來?
※安卓運行Python的神器:QPython
※Python中你可能不知道的platform