標籤:

關愛女性健康,從我做起

關愛女性健康,從我做起!

概況

心血來潮,想爬取某貓內衣的購買信息記錄,來對中國廣大女性的胸圍情況來次認真地探討。爬取內容為評論里的信息,包括尺碼,顏色以及評價。習慣性打開開發者工具,果不其然,評論信息是動態生成的。所以就要到 network 去抓包,數據是 json 格式的。搞到評論的具體網址後分析下各參數,用 list 迭代豈不美滋滋?第一次迭代爬取 10w 條評論後用 set 去重後只剩下 1000 多條??? 經分析,它每隔幾頁評論就會彈出一個反爬蟲連接驗證登錄,而且靠後一點,如 100 頁後的數據顯示的總是重複,經優化後一個商品差不多能爬到 4000 條不重複的評論。也可能是我技術還不到家吧,能力不夠,努力來湊。我就爬取了不同的約 50 件商品的記錄,得到了 20w 條評論信息(樣本容量還是有點小,不過取樣的範圍廣一點)。

前言

首先,得對內衣的尺碼有所了解,為此我專門查了一下,在這裡給對這個還不熟悉的男同胞們科普一下。

胸圍分為上胸圍和下胸圍

如何測量下胸圍尺碼?

水平圍繞胸部乳房底部一周的長度,即為胸部下圍尺寸,單位:CM

如何測量上胸圍方法?

水平圍繞胸部最高點(乳頭)一周的長度,即為胸上圍尺寸,如測量尺寸時遇到小數,測量時建議採用進一法,例如 72.1 公分,計算為 73 公分。

還不知道怎麼測量,看圖

如何計算罩杯的大小?

罩杯的大小就是上胸圍減去下胸圍的差。根據步驟一測量的結果,用胸圍尺寸 - 下胸圍尺寸的差,即確定罩杯號型。對應罩杯參考。

本來以為 A 已經夠優秀了,沒想到還有 AA 的,比優秀還優秀。加油,摸摸大!

接下來就是確定具體尺碼了,尺碼有兩種,英式尺碼和國際尺碼。

有了這些基本概念後,我們再來看看這具體的 20w 條數據

顏色

對顏色進行分詞統計詞頻,清理數據後共有 136 個,對 top20 生成條形圖

膚色 黑色 粉色 在第一梯隊,遙遙領先

灰色 白色 卡其色 紫色 藍色 淺紫色 紅色 貴族黑 淺藍 處於第二梯隊,貴族黑和黑色有什麼差別?黑得若隱若現?

薄杯,薄款,厚款,超薄 按厚度來,厚款 > 薄款 > 薄杯 > 超薄 ?廣大女性對薄款還是更多鍾愛的,是因為現在夏天薄的比較涼爽嗎?還是薄的性感一點?

具體 top60

膚色, 67861n黑色, 48686n粉色, 15788n鋼圈, 14846n薄款, 11928n薄杯, 9874n單件, 7109n灰色, 6486n白色, 6345n套裝, 6228n卡其色, 5745n紫色, 5540n藍色, 5333n厚款, 5126n淺紫色, 4336n紅色, 4322n貴族黑, 4285n拉絲, 3793n淺藍, 3667n超薄, 3627n下厚, 3459n上薄, 3459n綁帶, 3236n酒紅, 3215n膚嫩色, 2804n三排, 2543n亮面, 2403n純色, 2205n輕膚, 2189n蕾絲, 2102n銀灰色, 1979n藕荷色, 1802n玫紅, 1781n寶藍色, 1681n純潔, 1659n全光膚, 1642n銀灰, 1636n咖啡色, 1587n光面, 1548n段染, 1547n蝦粉, 1546n水晶, 1371n亞光版, 1262n藏青, 1211n輕粉, 1185n綠色, 1113n淺綠色, 1074n粉紅色, 1056n全光, 1053n金膚色, 1006n豆沙, 870n典雅, 788n果綠, 722n冰沙粉, 699n紫顏色, 678n經典, 649n藍邊, 643n奶白色, 621n淺粉, 563n薄荷綠, 556n

才知道原來顏色可以有這麼多種...

土豪金 靜謐藍 個性黑 挺別緻的,蕾絲 好像也深受喜愛

最後來個詞雲

尺碼

這 20w 條數據中,下胸圍範圍為 [ 70cm - 90cm ],罩杯範圍為 [ A - E ]

先來看看總體的胸圍情況

總體上呈現先升後降的趨勢,以 75cm 為分界點開始下滑,總體範圍還是在 70cm - 85cm, 95cm 的基本上已經很少了,一是可能爬取的內衣商品裡面有的沒賣 95cm 的,二是這胸圍的本來就少...

下胸圍對應的總體比例

再來看看總體的罩杯情況

也是先升後降的趨勢,這個是以 B 罩杯為分界點開始下滑,但是這個滑得明顯比較陡峭一點,E 罩杯 只有可憐的 155。哎!現實太骨感了,還是理想豐滿一點。

罩杯對應的總體比例

看完總體看具體

以罩杯為橫坐標,繪製出各胸圍對應的罩杯情況

基本上都是先升後降,75cm 80cm 85cm 的是以 B 罩杯為分界點變換趨勢,只有 70cm 的是一路向下滑。90cm 和 95cm 由於量不足,在這個圖裡基本上已經貼著 X 軸了,把這兩個單獨拉出來看看

這下就明顯很多了,這兩個是以 C 罩杯為分界點變換趨勢的,因為畢竟胸圍大,罩杯大的幾率會大一點。值得注意的是,95cm 是沒有 A 罩杯和 E 罩杯的。95cm 的胸圍 A 的罩杯,這太可憐了吧..., 95cm 的胸圍 E 的罩杯,那也是強得不敢想像。

以胸圍為橫坐標,繪製出各罩杯對應的胸圍情況

這個的趨勢就比較有趣了,A 罩杯和 B 罩杯以 75cm 為分界點,開始下降,A 罩杯降得比 B 罩杯稍微平緩一點,C 罩杯的波動就平緩很多,可能也是總體的量偏少,加上圖表比例的關係。至於 D 罩杯和 E 罩杯,還是貼地了,我也把它倆單獨拉出來。

可以看到 D 罩杯是呈現梯狀的,E 罩杯由於量實在少,基本上毫無波動。

再詳細看看數據集中的範圍

胸圍範圍為 [ 70cm - 85cm ],罩杯範圍為 [ A - C ]

其對應的比例分別為

70cm 的情況,A > B > C

75cm 的情況,B > A > C

80cm 的情況,B > A > C

85cm 的情況,B > C > A

70cm 的小胸圍罩杯比例 A > B > C,小胸圍的本身應該就是偏瘦,瘦的話罩杯也是偏小。 75cm 和 80cm 的 B 罩杯的比例都要稍大於 A 罩杯的。85cm 的 C 罩杯已經反超於 A 罩杯了,畢竟胸圍大,罩杯也不會小到哪裡去

評價

一樣的套路,分詞然後統計詞頻,進行數據的清理。其中有 42321 條評論用戶是沒有填寫評論的,這個不進行處理。

由於評價沒有統一規範,這個統計出來的詞就多了去了。由 top20 生成條形圖

舒服 不錯 喜歡 滿意 可以 好評 合適 這些都是不錯的評價,聚攏 ?顯得大一點嗎?

展示一下 top60

舒服, 39425n 不錯, 38335n 質量, 27383n 喜歡, 21841n 穿著, 19816n 內衣, 18281n 寶貝, 17377n 非常, 16812n 聚攏, 14919n 收到, 14881n 滿意, 14558n 效果, 12684n 可以, 11989n 好評, 11520n 合適, 10705n 購買, 10254n 沒有, 9114n 就是, 8807n 有點, 8658n 特別, 8455n 真的, 8105n 感覺, 7927n 小, 7347n 顏色, 6945n 下次, 6876n 這個, 6557n 物流, 6517n 起來, 6279n 好看, 6250n 還會, 5864n 夏天, 5585n 以後, 5472n 值得, 5457n 尺碼, 5453n 第二次, 5415n 價格, 5378n 舒適, 5369n 不會, 5169n 還是, 5080n 而且, 5052n 適合, 5041n 賣家, 4964n 一樣, 4834n 鋼圈, 4756n 東西, 4711n 客服, 4696n 一下, 4638n 大小, 4591n 面料, 4531n 試穿, 4476n 挺舒服, 4468n 推薦, 4383n 很快, 4037n 便宜, 3996n 一次, 3843n 但是, 3717n 已經, 3714n 超級, 3692n 衣服, 3621n 一個, 3476n

第二次都出現了 5415 次,看來是回頭客了。來看一下沒有排上 top60 的其他詞,來個有趣一點的。

哈哈, 989n哈哈哈, 554n哈, 318n哈哈哈哈, 170n

所以,哈多少個是看心情決定的嗎?

便宜, 3996n實惠, 3216n方便, 1708n性價比, 1662n

貨比三家,上網買東西圖的就是一個方便和便宜。

其他的就不再詳細分析了,還是老規矩,上個評價的詞雲。

最後

看我用散點圖畫出一個內衣

什麼?不喜歡這火辣的紅色,那來個性感的黑色。

用散點圖表白也不是說不行,諾!

最後一張圖引用我心目中永遠的大神 Linus 的一句話

Github地址:https://github.com/chenjiandongx/cup-size

歡迎 fork 和 star

PS:爬取數據已分享到 GitHub 項目里


推薦閱讀:

Python 單元測試
完全理解Python關鍵字"with"與上下文管理器
爬蟲入門到精通-headers的詳細講解(模擬登錄知乎)
【掃盲】五分鐘了解Python
Python 3.6全揭秘

TAG:Python |