糗事百科數據淺析
04-27
寫在前面的結論1,寫糗事百科的男性佔比高於女性2,年齡段集中分布在20到30歲3,喜歡寫小段子,不喜歡發圖片4,一入糗百深似海,從此節操為路人
4,文件里的數據 load到hive表,讓數據結構化,是分析數據的前提:
寫糗事百科男性佔比64,是屌絲太多,還是男女比例失衡歡迎吃瓜群眾,點贊,寫想法,需要代碼學習的有為青年,私聊我
數據分析圖表在文章底部
源碼在文章底部有鏈接抓取數據格式如下圖:實踐是檢驗真理的唯一標準:1,目標鎖定 糗事百科 抓取 24小時爆笑笑話大全,糗事百科網頁結果簡單,布局清晰,沒有設置防盜鏈,也不需要登錄就可以訪問,抓去難度3星。方便新手上路
2,抓取環境,需要python環境,本人的python 2.x版本,菜鳥應該知道怎麼安裝。
3,抓取源代碼(鄙人借鑒了前人的經驗),畢竟走別人走過的路更好走,實際操作中,優化代碼,代碼功能實現。回車鍵 分條讀取百科內容,也可批量讀取多頁數據,保存到本地文件。
主要欄位: 用戶昵稱,性別,年齡,糗事內容,是否有圖,點贊數,喜歡數。
hive表如下:
hive> load data local inpath /home/work/heyu/qiuxi24_data overwrite into table tmp.test_qiuxi_24_data
數據完美寫入
5,通過hql對數據進行聚合:
6,分析數據圖
從下圖可以看出,用戶發布的糗事不添加圖片的佔比為百分之84。是不是製圖發圖的時間成本高,希望糗事百科能支持圖片在線編輯功能,收藏,轉發來刺激用戶發圖。
從下圖可以看到每個年齡到糗事的評論文章長度相當,20到29評論點贊數較高,從上萬的點贊數可以看出,糗事百科還是有很多吃瓜群眾的寫糗事百科年齡段分布圖源碼下載https://gist.github.com/aherain/761b42cad7e850a99397829d48cbe4fc
推薦閱讀: