標籤:

基於知乎用戶數據的基礎MySQL使用指南

首先感謝@蘇莉安蘇神的看知乎知乎用戶數據,詳情請看:1024 Days

蘇神的辛勤勞動成果zhidata.sql 壓縮文件雲盤鏈接為: pan.baidu.com/s/1c22ycW 壓縮文件大小為1.48G。

以下是詳細介紹如何在Ubuntu 14.0.4系統環境下將zhidata.sql 導入至本地的MySQL資料庫:

一、下載並解壓zhidata.sql.gz

zhidata.sql.gz文件鏈接: pan.baidu.com/s/1c22ycW 解壓後文件大小為4.7G。

二、安裝與登錄MySQL資料庫

在終端中使用三條安裝MySQL命令:

1. sudo apt-get install mysql-server

2. sudo apt-get install mysql-client

3. sudo apt-get install libmysqlclient-dev

注意:

  • 以上命令需要root用戶許可權
  • 中途需要設置MySQL密碼

驗證Mysql安裝成功:

使用命令: sudo netstat -tap | grep mysql 驗證

若處於LISTEN狀態,則說明MySQL安裝成功。

登錄MySQL:

使用:mysql -uroot -p 命令登錄,需要使用剛剛設置的MySQL密碼。

至此,MySQL 安裝並成功登錄。

三、使用SQL語句在終端創建資料庫

登錄MySQL後,使用 show databases;(有分號,下同)語句查看已存在的所有資料庫。

上圖的資料庫是安裝MySQL後默認存在的資料庫,我們需要為知乎用戶數據創建新的資料庫,使用語句:create database zhihu; 即新的資料庫命名為:zhihu

再次使用: show databases; 語句查看已有資料庫

新創建的zhihu資料庫已存在,使用zhihu資料庫,使用:use zhihu; 語句

四、導入數據

這時zhihu資料庫是空的,即裡面是沒表(table)的存在。需要把解壓好的zhidata.sql導入到zhihu資料庫中,使用:source /home/rescue/Desktop/zhidata.sql 語句

註:source命令後的參數是zhidata.sql文件的具體位置,/home/rescue/Desktop/zhidata.sql只是我自己存放zhidata.sql的位置,根據個人zhidata.sql文件存放不同的位置而不同。

若以上操作無誤,接下來就是等待(時間較長)數據插入(insert)到資料庫中。

數據插入完成後,查看zhihu資料庫中的表,使用:show tables; 語句

可以看到zhihu資料庫中已有三個表:

  • snapshots:按日抓取的快照信息,1,048條
  • users:用戶基本信息,127,366條
  • usersnapshots:每日快照中的用戶數據,60,060,427條

說明知乎用戶數據已成功導入到zhihu這個資料庫中,再次驗證使用:select * from users; 語句

終端將顯示users表中所有的記錄

同理,可以使用select * from snapshots; 查看所有快照記錄,使用:select * from usersnapshots; 查看所有快照中的用戶數據。

五、使用Navicat for MySQL管理數據

但由於數據眾多,在終端顯示數據並不方便,建議使用Navicat for MySQL資料庫管理工具,方便管理數據,Navicat for MySQL下載。

下載後,解壓安裝包

在終端中啟動start_navicat腳本,使用:./start_navicat 打開Navicat

將Navicat連接至本地MySQL資料庫,點擊connection按鈕

填寫connection Name,可任意,如test,填寫Password,即填寫安裝MySQL資料庫時設置的密碼,點擊OK確認後,Navicat與本地的MySQL資料庫連接起來。

可以看到zhihu資料庫下的三張表,點擊任意表即可查詢記錄。

註:為了查看所有的記錄,修改Navicat默認顯示的行數,點擊菜單欄中Tools的Options

取消Limit Records的限制,確定即可,這樣所有的記錄都顯示出來。

至此,所有工作完成,展示出蘇神1024 Days挖掘的數據,再次感謝蘇神的付出,同樣期待看知乎重出江湖,哪怕是以其他的方式。

而我,很慚愧,只做了一點微小的工作。

推薦閱讀:

時間序列資料庫漫談
建庫、搬家、開版與其他
爬蟲會用到的小工具: LazySpider 發布啦!
有沒有比較好的銀行理財產品資料庫?
TiDB Best Practice

TAG:编程 | 数据库 |