糗事百科數據淺析

寫在前面的結論

1,寫糗事百科的男性佔比高於女性

2,年齡段集中分布在20到30歲

3,喜歡寫小段子,不喜歡發圖片

4,一入糗百深似海,從此節操為路人

數據分析圖表在文章底部

源碼在文章底部有鏈接

抓取數據格式如下圖:

實踐是檢驗真理的唯一標準:

1,目標鎖定 糗事百科 抓取 24小時爆笑笑話大全,糗事百科網頁結果簡單,布局清晰,沒有設置防盜鏈,也不需要登錄就可以訪問,抓去難度3星。方便新手上路

2,抓取環境,需要python環境,本人的python 2.x版本,菜鳥應該知道怎麼安裝。

3,抓取源代碼(鄙人借鑒了前人的經驗),畢竟走別人走過的路更好走,實際操作中,優化代碼,代碼功能實現。回車鍵 分條讀取百科內容,也可批量讀取多頁數據,保存到本地文件。

主要欄位: 用戶昵稱,性別,年齡,糗事內容,是否有圖,點贊數,喜歡數。

4,文件里的數據 load到hive表,讓數據結構化,是分析數據的前提:

hive表如下:

hive> load data local inpath /home/work/heyu/qiuxi24_data overwrite into table tmp.test_qiuxi_24_data

數據完美寫入

5,通過hql對數據進行聚合:

6,分析數據圖

從下圖可以看出,用戶發布的糗事不添加圖片的佔比為百分之84。是不是製圖發圖的時間成本高,希望糗事百科能支持圖片在線編輯功能,收藏,轉發來刺激用戶發圖。

從下圖可以看到每個年齡到糗事的評論文章長度相當,20到29評論點贊數較高,從上萬的點贊數可以看出,糗事百科還是有很多吃瓜群眾的

寫糗事百科年齡段分布圖

寫糗事百科男性佔比64,是屌絲太多,還是男女比例失衡

歡迎吃瓜群眾,點贊,寫想法,需要代碼學習的有為青年,私聊我

源碼下載gist.github.com/aherain
推薦閱讀:

TAG:Python開發 | 爬蟲 | 大數據分析 |