七夕來了,是時候喂一波「狗糧」了 | DT×NYCDSA
「
今天的狗糧,真的是狗糧哦!作為寵物愛好者,數據俠 Summer Sun 一直很關心自己寵物的口糧問題。她爬取了美國寵物市場上的食品信息,用數據分析的方法為自己的寵物做了一份科學的食物分析。
2017年第一季度,美國市場的寵物食品銷量同比增長40%。食品種類也更加多樣。作為一個養寵物的人,我總是很糾結如何挑選更好的寵物食品,因為我的毛茸茸的夥伴有時候會對我給它買回來的食物嗤之以鼻。於是我決定展開這個爬蟲項目,來進一步了解寵物食品。我的一些發現不僅會對寵物主有幫助,也會有益於剛剛進入這個市場的供應商們。
在2016年全美寵物市場中,市值159.2億美元的寵物食品市場佔了大頭。但是這個市場還是高度集中化的,幾大廠商(雀巢、馬氏、 Big Heart、高露潔、藍爵)佔據了70%的市場份額。所有的廠商都要按照消費者的需求進行設計,而根據問卷調查的結果,消費者最關心的是產品的「高品質」問題。
什麼樣的產品算是高質量的寵物食品?我們研究中的假設是,寵物食品的品質取決於它的材料。
我的分析會從營養成分分析開始,它會顯示整個食物的營養成分構成。
(圖片說明:寵物食品的營養成分構成)
市面上有4500多種產品,我從美國領先的在線零售網站 (chewy.com) 上爬取了貓糧和狗糧的數據。下面是一個爬取數據的樣本。我用 Python 包 Pandas 對數據進行了預處理,使用複雜的多步驟數據處理方式,將寵物食品成分進行了單獨區分。
(圖片說明:爬蟲下的數據示例)
基於剛才提到的假設,我的研究包括以下三步:首先,比較營養成分分析中的基本數據,以查看它們的營養構成信息;其次,識別被用戶視為「好品質」和「差品質」產品;最後觀察不同品質產品的區別。
實驗中用到的方法包括:Scrapy(一種python爬蟲框架),k-平均演算法(K-mean Clustering),方差分析(ANOVA test),散步圖(Scatter text)。
我對大約4500個產品的數據進行了預處理。我們基於大約70種不同的原材料,使用無監督學習的方法對產品進行了聚類處理。我們使用k-平均演算法,基於不同原材料所佔的比例將它們分成5個部分。
數據通過主成分分析法(PCA)降維演算法降成兩個維度。下圖展示了5個數據群集的情況。
(圖片說明:PCA後的數據集群情況)
這部分的結果是基於這樣的假設:產品的評價數量和評級情況反映了它的品質(也就是上文提到的兩個評價維度)。為了按照品質來區別不同產品,我使用了方差分析(ANOVA test)。觀察得出,下圖中3號和4號數據群比1和2擁有更高的評級和更多的用戶評論。這說明,事實上,產品品質的確取決於所用材料。
(圖片說明:5個數據群的評級(1星到5星)分布)
(圖片說明:5個數據群的產品評論數量)
數據群3、4被認為是好品質的產品,1、2被視為差品質的產品。0號數據群表示缺失評論數據的例外情況。
下面是產品材料出現的頻率圖。
(圖片說明:好產品和壞產品中出現的材料的不同頻率)
一些只頻繁出現在「好品質」的產品中的材料包括:魚油(Lutine) 、甜味劑(FOS)、纖維 (Mannan-oligosaccharides or MOS)等。
一些只出現在「差品質」的產品中的材料:防止胃流感(Gastrointestinal )、煙酸(Niacin)、鉀(Potassium)。
其他材料也被按照好產品和壞產品出現頻率進行了比較:好產品中,葡萄糖胺和軟骨素的出現頻率更高。差產品的水分含量會更高。因為水分更高會擠占其他如蛋白質等營養元素的比重。這解釋了為何流食沒有乾糧受歡迎。
(圖片說明:寵物食品原料分布說明。)
所以,我的結論是:功能和營養水平是區分產品品質好壞的主要因素。健骨、明目,更多的蛋白質/纖維素,以及更好的味道是好產品的反饋中被消費者提及最多的元素。而纖維之外的消化支持,以及更高比例的水分則更頻繁出現在「差品」的用戶反饋中。
食物材料導致了好壞品質之分。這些發現可以幫助生產商製造更多「好品質」的產品,更好的跟上快速變化的寵物食品市場。由於時間有限,我的項目的關注點比較有限。未來的研究可以加入更多考量因素,比如價格、功效、用戶評價以及其他產品信息。
註:
本文編譯自數據博客《
How to Recommend Pet Food Product from Unsupervised Learning
》。
點擊「
閱讀原文
」查看。內容僅為作者觀點,不代表DT數據俠立場。文中圖片部分來自作者。
作者
| Summer Sun
題圖 | 站酷海洛
期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號
DT數據俠
(ID:DTdatahero)後台回復「
數據社群
」,可申請加入DT數據社群。
▍
數據俠門派
Summer Sun 對數據科學充滿熱情,她有三年的數據行業經驗,曾為大型金融機構分析海量用戶數據。她喜歡挑戰各類有挑戰的課題。
▍
加入數據俠
數據俠計劃是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。申請入群請添加DT君微信(dtcaijing003)並備註「數據社群」,合作請聯繫datahero@dtcj.com。
推薦閱讀: