標籤:

用數據對女生胸圍來次一本正經的探索吧!

文/數據俠 陳鍵冬

這有一份天降的直男福利,這位貼心的數據俠,爬取了天貓內衣購買記錄,對中國女性的胸圍來了一次「大起底」。

本文轉自公眾號數據蟲巢(ID:blogchong)

爬取內容為評論里的信息,包括尺碼,顏色以及評價。習慣性打開開發者工具,果不其然,評論信息是動態生成的。所以就要到network去抓包,數據是json格式的。

搞到評論的具體網址後分析下各參數,用list迭代豈不美滋滋?第一次迭代爬取10萬條評論後用 set 去重後只剩下1000多條???

經分析,它每隔幾頁評論就會彈出一個反爬蟲連接驗證登錄,而且靠後一點,如100頁後的數據顯示的總是重複,經優化後一個商品差不多能爬到4000條不重複的評論。也可能是我技術還不到家吧,能力不夠,努力來湊。

於是我就爬取了不同的約50件商品的記錄,得到了20萬條評論信息(樣本容量還是有點小,不過取樣的範圍廣一點)。

前言

首先,得對內衣的尺碼有所了解,為此我專門查了一下,在這裡給對這個還不熟悉的男同胞們科普一下。

胸圍分為上胸圍和下胸圍。

如何測量下胸圍尺碼?水平圍繞胸部乳房底部一周的長度,即為胸部下圍尺寸,單位:CM。

如何測量上胸圍方法?水平圍繞胸部最高點(乳頭)一周的長度,即為胸上圍尺寸,如測量尺寸時遇到小數,測量時建議採用進一法,例如72.1公分,計算為73公分。

還不知道怎麼測量,看圖:

如何計算罩杯的大小?

罩杯的大小就是上胸圍減去下胸圍的差。根據步驟一測量的結果,用胸圍尺寸 - 下胸圍尺寸的差,即確定罩杯號型。對應罩杯參考。

本來以為A已經夠優秀了,沒想到還有AA的,比優秀還優秀。

加油,摸摸大! 接下來就是確定具體尺碼了,尺碼有兩種,英式尺碼和國際尺碼。

有了這些基本概念後,我們再來看看這具體的20萬條數據。

顏色

對顏色進行分詞統計詞頻,清理數據後共有136個,對Top20生成條形圖。

膚色、黑色、粉色在第一梯隊,遙遙領先。

灰色、白色、卡其色、紫色、藍色、淺紫色、紅色、貴族黑、淺藍處於第二梯隊,貴族黑和黑色有什麼差別?黑得若隱若現?

薄杯、薄款、厚款、超薄,按厚度來,厚款 > 薄款 > 薄杯 > 超薄 ?廣大女性對薄款還是更多鍾愛的,是因為現在夏天薄的比較涼爽嗎?還是薄的性感一點?

具體Top60:

膚色, 67861

黑色,

48686粉色, 15788鋼圈, 14846薄款, 11928薄杯, 9874單件, 7109灰色, 6486白色, 6345套裝,

6228卡其色, 5745紫色, 5540藍色, 5333厚款, 5126淺紫色, 4336紅色, 4322貴族黑, 4285拉絲,

3793淺藍, 3667超薄, 3627下厚, 3459上薄, 3459綁帶, 3236酒紅, 3215膚嫩色, 2804三排, 2543亮面,

2403純色, 2205輕膚, 2189蕾絲, 2102銀灰色, 1979藕荷色, 1802玫紅, 1781寶藍色, 1681純潔,

1659全光膚, 1642銀灰, 1636咖啡色, 1587光面, 1548段染, 1547蝦粉, 1546水晶, 1371亞光版,

1262藏青, 1211輕粉, 1185綠色, 1113淺綠色, 1074粉紅色, 1056全光, 1053金膚色, 1006豆沙,

870典雅, 788果綠, 722冰沙粉, 699紫顏色, 678經典, 649藍邊, 643奶白色, 621淺粉, 563薄荷綠, 556

才知道原來顏色可以有這麼多種...

土豪金、靜謐藍、個性黑挺別緻的,蕾絲好像也深受喜愛。

最後來個詞云:

尺碼

這20萬條數據中,下胸圍範圍為[70cm - 90cm],罩杯範圍為[A-E]。

先來看看總體的胸圍情況:

總體上呈現先升後降的趨勢,以75cm為分界點開始下滑,總體範圍還是在70cm-85cm, 95cm的基本上已經很少了,一是可能爬取的內衣商品裡面有的沒賣95cm的,二是這胸圍的本來就少...

先看看下胸圍對應的總體比例:

再來看看總體的罩杯情況:

也是先升後降的趨勢,這個是以B罩杯為分界點開始下滑,但是這個滑得明顯比較陡峭一點,E罩杯只有可憐的155。哎!現實太骨感了,還是理想豐滿一點。

罩杯對應的總體比例:

看完總體看具體的,以罩杯為橫坐標,繪製出各胸圍對應的罩杯情況:

基本上都是先升後降,75cm、80cm和85cm的是以B罩杯為分界點變換趨勢,只有70cm的是一路向下滑。90cm和95cm由於量不足,在這個圖裡基本上已經貼著X軸了,把這兩個單獨拉出來看看。

這下就明顯很多了,這兩個是以C罩杯為分界點變換趨勢的,因為畢竟胸圍大,罩杯大的幾率會大一點。

值得注意的是,95cm是沒有A罩杯和E罩杯的。95cm的胸圍A的罩杯,這太可憐了吧……95cm的胸圍E的罩杯,那也是強得不敢想像。

以胸圍為橫坐標,繪製出各罩杯對應的胸圍情況:

這個的趨勢就比較有趣了,A罩杯和B罩杯以75cm為分界點,開始下降,A罩杯降得比B罩杯稍微平緩一點,C罩杯的波動就平緩很多,可能也是總體的量偏少,加上圖表比例的關係。

至於D罩杯和E罩杯,還是貼地了,我也把它倆單獨拉出來。

可以看到D罩杯是呈現梯狀的,E罩杯由於量實在少,基本上毫無波動。

再詳細看看數據集中的範圍吧,胸圍範圍為 [70cm-85cm],罩杯範圍為 [A-C],其對應的比例分別為70cm的情況,A>B>C:

75cm的情況,B>A>C:

80cm的情況,B>A>C:

85cm的情況,B>C>A:

70cm的小胸圍罩杯比例A>B>C,小胸圍的本身應該就是偏瘦,瘦的話罩杯也是偏小。 75cm和80cm的B罩杯的比例都要稍大於 A 罩杯的。85cm的C罩杯已經反超於A罩杯了,畢竟胸圍大,罩杯也不會小到哪裡去。

評價

一樣的套路,分詞然後統計詞頻,進行數據的清理。其中有42321條評論用戶是沒有填寫評論的,這個不進行處理。

由於評價沒有統一規範,這個統計出來的詞就多了去了。由Top20生成條形圖:

舒服、不錯、喜歡、滿意、可以、好評、合適,這些都是不錯的評價,聚攏 ?顯得大一點嗎?

展示一下Top60:

舒服, 39425

不錯,

38335質量, 27383喜歡, 21841穿著, 19816內衣, 18281寶貝, 17377非常, 16812聚攏, 14919收到,

14881滿意, 14558效果, 12684可以, 11989好評, 11520合適, 10705購買, 10254沒有, 9114就是,

8807有點, 8658特別, 8455真的, 8105感覺, 7927小, 7347顏色, 6945下次, 6876這個, 6557物流,

6517起來, 6279好看, 6250還會, 5864夏天, 5585以後, 5472值得, 5457尺碼, 5453第二次, 5415價格,

5378舒適, 5369不會, 5169還是, 5080而且, 5052適合, 5041賣家, 4964一樣, 4834鋼圈, 4756東西,

4711客服, 4696一下, 4638大小, 4591面料, 4531試穿, 4476挺舒服, 4468推薦, 4383很快,

4037便宜, 3996一次, 3843但是, 3717已經, 3714超級, 3692衣服, 3621一個, 3476

第二次都出現了5415次,看來是回頭客了。來看一下沒有排上Top60的其他詞,來個有趣一點的。

哈哈, 989哈哈哈, 554哈, 318哈哈哈哈, 170

所以,哈多少個是看心情決定的嗎?

便宜, 3996實惠, 3216方便, 1708性價比, 1662

貨比三家,上網買東西圖的就是一個方便和便宜。

其他的就不再詳細分析了,還是老規矩,上個評價的詞雲。

最後

看我用散點圖畫出一個內衣:

什麼?不喜歡這火辣的紅色,那來個性感的黑色。

用散點圖表白也不是說不行,諾!

最後一張圖引用我心目中永遠的大神Linus的一句話:

註:文章僅為作者觀點,不代表DT財經立場。

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。

數據俠門派

本文數據俠陳鍵冬,計算機專業大三在讀,喜歡數據可視化。

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請關注DT數據俠回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。


推薦閱讀:

go語言如何入門,如何提高?
大數據驅動的人工智慧時代,如何成為2%不被淘汰的人?
假如海平面上升100米中國會怎麼樣?
2017年數據分析實踐計劃
鏈家網大數據平台建設,平台樞紐——工具鏈

TAG:胸围 | 大数据 |