關愛女性健康,從我做起
關愛女性健康,從我做起!
概況
心血來潮,想爬取某貓內衣的購買信息記錄,來對中國廣大女性的胸圍情況來次認真地探討。爬取內容為評論里的信息,包括尺碼,顏色以及評價。習慣性打開開發者工具,果不其然,評論信息是動態生成的。所以就要到 network 去抓包,數據是 json 格式的。搞到評論的具體網址後分析下各參數,用 list 迭代豈不美滋滋?第一次迭代爬取 10w 條評論後用 set 去重後只剩下 1000 多條??? 經分析,它每隔幾頁評論就會彈出一個反爬蟲連接驗證登錄,而且靠後一點,如 100 頁後的數據顯示的總是重複,經優化後一個商品差不多能爬到 4000 條不重複的評論。也可能是我技術還不到家吧,能力不夠,努力來湊。我就爬取了不同的約 50 件商品的記錄,得到了 20w 條評論信息(樣本容量還是有點小,不過取樣的範圍廣一點)。前言
首先,得對內衣的尺碼有所了解,為此我專門查了一下,在這裡給對這個還不熟悉的男同胞們科普一下。 胸圍分為上胸圍和下胸圍如何測量下胸圍尺碼?
水平圍繞胸部乳房底部一周的長度,即為胸部下圍尺寸,單位:CM 如何測量上胸圍方法? 水平圍繞胸部最高點(乳頭)一周的長度,即為胸上圍尺寸,如測量尺寸時遇到小數,測量時建議採用進一法,例如 72.1 公分,計算為 73 公分。 還不知道怎麼測量,看圖 如何計算罩杯的大小? 罩杯的大小就是上胸圍減去下胸圍的差。根據步驟一測量的結果,用胸圍尺寸 - 下胸圍尺寸的差,即確定罩杯號型。對應罩杯參考。 本來以為 A 已經夠優秀了,沒想到還有 AA 的,比優秀還優秀。加油,摸摸大!接下來就是確定具體尺碼了,尺碼有兩種,英式尺碼和國際尺碼。
有了這些基本概念後,我們再來看看這具體的 20w 條數據顏色
對顏色進行分詞統計詞頻,清理數據後共有 136 個,對 top20 生成條形圖 膚色 黑色 粉色 在第一梯隊,遙遙領先 灰色 白色 卡其色 紫色 藍色 淺紫色 紅色 貴族黑 淺藍 處於第二梯隊,貴族黑和黑色有什麼差別?黑得若隱若現? 薄杯,薄款,厚款,超薄 按厚度來,厚款 > 薄款 > 薄杯 > 超薄 ?廣大女性對薄款還是更多鍾愛的,是因為現在夏天薄的比較涼爽嗎?還是薄的性感一點? 具體 top60膚色, 67861n黑色, 48686n粉色, 15788n鋼圈, 14846n薄款, 11928n薄杯, 9874n單件, 7109n灰色, 6486n白色, 6345n套裝, 6228n卡其色, 5745n紫色, 5540n藍色, 5333n厚款, 5126n淺紫色, 4336n紅色, 4322n貴族黑, 4285n拉絲, 3793n淺藍, 3667n超薄, 3627n下厚, 3459n上薄, 3459n綁帶, 3236n酒紅, 3215n膚嫩色, 2804n三排, 2543n亮面, 2403n純色, 2205n輕膚, 2189n蕾絲, 2102n銀灰色, 1979n藕荷色, 1802n玫紅, 1781n寶藍色, 1681n純潔, 1659n全光膚, 1642n銀灰, 1636n咖啡色, 1587n光面, 1548n段染, 1547n蝦粉, 1546n水晶, 1371n亞光版, 1262n藏青, 1211n輕粉, 1185n綠色, 1113n淺綠色, 1074n粉紅色, 1056n全光, 1053n金膚色, 1006n豆沙, 870n典雅, 788n果綠, 722n冰沙粉, 699n紫顏色, 678n經典, 649n藍邊, 643n奶白色, 621n淺粉, 563n薄荷綠, 556n
才知道原來顏色可以有這麼多種...
土豪金 靜謐藍 個性黑 挺別緻的,蕾絲 好像也深受喜愛 最後來個詞雲尺碼
這 20w 條數據中,下胸圍範圍為 [ 70cm - 90cm ],罩杯範圍為 [ A - E ] 先來看看總體的胸圍情況 總體上呈現先升後降的趨勢,以 75cm 為分界點開始下滑,總體範圍還是在 70cm - 85cm, 95cm 的基本上已經很少了,一是可能爬取的內衣商品裡面有的沒賣 95cm 的,二是這胸圍的本來就少... 下胸圍對應的總體比例再詳細看看數據集中的範圍
胸圍範圍為 [ 70cm - 85cm ],罩杯範圍為 [ A - C ] 其對應的比例分別為 70cm 的情況,A > B > C 75cm 的情況,B > A > C 80cm 的情況,B > A > C評價
一樣的套路,分詞然後統計詞頻,進行數據的清理。其中有 42321 條評論用戶是沒有填寫評論的,這個不進行處理。 由於評價沒有統一規範,這個統計出來的詞就多了去了。由 top20 生成條形圖 舒服 不錯 喜歡 滿意 可以 好評 合適 這些都是不錯的評價,聚攏 ?顯得大一點嗎?展示一下 top60
舒服, 39425n 不錯, 38335n 質量, 27383n 喜歡, 21841n 穿著, 19816n 內衣, 18281n 寶貝, 17377n 非常, 16812n 聚攏, 14919n 收到, 14881n 滿意, 14558n 效果, 12684n 可以, 11989n 好評, 11520n 合適, 10705n 購買, 10254n 沒有, 9114n 就是, 8807n 有點, 8658n 特別, 8455n 真的, 8105n 感覺, 7927n 小, 7347n 顏色, 6945n 下次, 6876n 這個, 6557n 物流, 6517n 起來, 6279n 好看, 6250n 還會, 5864n 夏天, 5585n 以後, 5472n 值得, 5457n 尺碼, 5453n 第二次, 5415n 價格, 5378n 舒適, 5369n 不會, 5169n 還是, 5080n 而且, 5052n 適合, 5041n 賣家, 4964n 一樣, 4834n 鋼圈, 4756n 東西, 4711n 客服, 4696n 一下, 4638n 大小, 4591n 面料, 4531n 試穿, 4476n 挺舒服, 4468n 推薦, 4383n 很快, 4037n 便宜, 3996n 一次, 3843n 但是, 3717n 已經, 3714n 超級, 3692n 衣服, 3621n 一個, 3476n
第二次都出現了 5415 次,看來是回頭客了。來看一下沒有排上 top60 的其他詞,來個有趣一點的。
哈哈, 989n哈哈哈, 554n哈, 318n哈哈哈哈, 170n
所以,哈多少個是看心情決定的嗎?
便宜, 3996n實惠, 3216n方便, 1708n性價比, 1662n
貨比三家,上網買東西圖的就是一個方便和便宜。
其他的就不再詳細分析了,還是老規矩,上個評價的詞雲。最後
看我用散點圖畫出一個內衣什麼?不喜歡這火辣的紅色,那來個性感的黑色。
用散點圖表白也不是說不行,諾! 最後一張圖引用我心目中永遠的大神 Linus 的一句話 Github地址:https://github.com/chenjiandongx/cup-size 歡迎 fork 和 starPS:爬取數據已分享到 GitHub 項目里
推薦閱讀:
※Python 單元測試
※完全理解Python關鍵字"with"與上下文管理器
※爬蟲入門到精通-headers的詳細講解(模擬登錄知乎)
※【掃盲】五分鐘了解Python
※Python 3.6全揭秘
TAG:Python |