世紀佳緣用戶畫像-Part1

又逢歲末,20多歲正在匆忙中奔三的你,每年回家被問得最多的,無非就是婚姻大事了。上帝在造人的時候將靈魂分成兩半,於是他們要終此一生,去互相尋找彼此的另一半。有時候會找到,但大多數時候,漂泊一生也難以尋得那位與你白頭偕老的TA。但是,一份美好的愛情,理應經得起等待。

回到主題,本文從數據挖掘的角度,在抓取「世紀佳緣」交友網站的主要省份約72W年輕用戶(20~28歲)信息,對該群體進行用戶畫像,從中窺知年輕群體在對待愛情和婚姻上的態度。

技術解析

爬虫部分依舊是使用Python語言編寫,開發者可通過自行修改XML文件,從而靈活地基於該Project進行符合自己需求的二次開發。

在數據清洗(主要是異常值和缺失值的處理)、統計分析、以及基於機器學習的方法進行預測方面,因為R語言在統計方面的廣泛運用,所以這裡採用R語言進行編寫。部分採用SQL腳本進行統計(因為R的速度真是不敢恭維~~)。分詞模塊使用Python,返回結果為熱度詞和對應的TF-IDF值。

在數據可視化部分,使用R的ggplot2 package、Baidu eCharts3,以及Excel2016自帶的可視化工具。同時使用Tagul生成自定義的字元圖雲。

所有代碼(Python、R、SQL)+ 數據(Json、Excel、CSV)會全部開源,希望更多熱愛 機器學習/深度學習/人工智慧/計算機視覺/自然語言處理/推薦系統/搜索/數據挖掘/數據可視化的小夥伴多多與我交流哈(知乎|微信公眾號 @LucasX)。

用戶畫像

作者知道,很多非計算機相關專業的朋友肯定對上面的「一大串文字」一點兒興趣也沒有,所以上面也不打算怎麼細緻描述了。OK,直接看圖吧!

結語

爬蟲代碼是半年前剛學Python練手的時候寫的,數據也一直沒有做分析,一想吧又有點可惜了,於是抽時間來設計PPT、寫分析報告,目前只完成了第一部分,後續有靈感會持續更新的。

接下來的設想是,用爬取的頭像來訓練該爬蟲,使其具有「顏值識別」功能,但是給圖片打標籤太麻煩了。

注 : 顏值識別可以參考我的另一篇文章 人工智慧告訴你,你有多好看

[頭像圖片集-部分]

對於報告中可能存在的錯誤,歡迎批評指正。對於圖表類PPT的設計與美化,也歡迎大家提出更多有價值的意見。 ^_^

Source code on github : EclipseXuLu/JiaYuan


推薦閱讀:

leaflet在線地圖——常用熱力地圖
pyecharts 又更新啦!繪圖速度更快啦!
技術乾貨:日誌數據可視化分析展示平台的建設之路
如何製作非常精美的圖表?
Excel史上最全的氣泡與方塊系列的圖表

TAG:数据分析 | 爬虫计算机网络 | 数据可视化 |