標籤:

七夕來了,是時候喂一波「狗糧」了 | DT×NYCDSA

今天的狗糧,真的是狗糧哦!作為寵物愛好者,數據俠 Summer Sun 一直很關心自己寵物的口糧問題。她爬取了美國寵物市場上的食品信息,用數據分析的方法為自己的寵物做了一份科學的食物分析。

2017年第一季度,美國市場的寵物食品銷量同比增長40%。食品種類也更加多樣。作為一個養寵物的人,我總是很糾結如何挑選更好的寵物食品,因為我的毛茸茸的夥伴有時候會對我給它買回來的食物嗤之以鼻。於是我決定展開這個爬蟲項目,來進一步了解寵物食品。我的一些發現不僅會對寵物主有幫助,也會有益於剛剛進入這個市場的供應商們。

在2016年全美寵物市場中,市值159.2億美元的寵物食品市場佔了大頭。但是這個市場還是高度集中化的,幾大廠商(雀巢、馬氏、 Big Heart、高露潔、藍爵)佔據了70%的市場份額。所有的廠商都要按照消費者的需求進行設計,而根據問卷調查的結果,消費者最關心的是產品的「高品質」問題。

什麼樣的產品算是高質量的寵物食品?我們研究中的假設是,寵物食品的品質取決於它的材料。

我的分析會從營養成分分析開始,它會顯示整個食物的營養成分構成。

(圖片說明:寵物食品的營養成分構成)

市面上有4500多種產品,我從美國領先的在線零售網站 (chewy.com) 上爬取了貓糧和狗糧的數據。下面是一個爬取數據的樣本。我用 Python 包 Pandas 對數據進行了預處理,使用複雜的多步驟數據處理方式,將寵物食品成分進行了單獨區分。

(圖片說明:爬蟲下的數據示例)

基於剛才提到的假設,我的研究包括以下三步:首先,比較營養成分分析中的基本數據,以查看它們的營養構成信息;其次,識別被用戶視為「好品質」和「差品質」產品;最後觀察不同品質產品的區別。

實驗中用到的方法包括:Scrapy(一種python爬蟲框架),k-平均演算法(K-mean Clustering),方差分析(ANOVA test),散步圖(Scatter text)。

我對大約4500個產品的數據進行了預處理。我們基於大約70種不同的原材料,使用無監督學習的方法對產品進行了聚類處理。我們使用k-平均演算法,基於不同原材料所佔的比例將它們分成5個部分。

數據通過主成分分析法(PCA)降維演算法降成兩個維度。下圖展示了5個數據群集的情況。

(圖片說明:PCA後的數據集群情況)

這部分的結果是基於這樣的假設:產品的評價數量和評級情況反映了它的品質(也就是上文提到的兩個評價維度)。為了按照品質來區別不同產品,我使用了方差分析(ANOVA test)。觀察得出,下圖中3號和4號數據群比1和2擁有更高的評級和更多的用戶評論。這說明,事實上,產品品質的確取決於所用材料。

(圖片說明:5個數據群的評級(1星到5星)分布)

(圖片說明:5個數據群的產品評論數量)

數據群3、4被認為是好品質的產品,1、2被視為差品質的產品。0號數據群表示缺失評論數據的例外情況。

下面是產品材料出現的頻率圖。

(圖片說明:好產品和壞產品中出現的材料的不同頻率)

一些只頻繁出現在「好品質」的產品中的材料包括:魚油(Lutine) 、甜味劑(FOS)、纖維 (Mannan-oligosaccharides or MOS)等。

一些只出現在「差品質」的產品中的材料:防止胃流感(Gastrointestinal )、煙酸(Niacin)、鉀(Potassium)。

其他材料也被按照好產品和壞產品出現頻率進行了比較:好產品中,葡萄糖胺和軟骨素的出現頻率更高。差產品的水分含量會更高。因為水分更高會擠占其他如蛋白質等營養元素的比重。這解釋了為何流食沒有乾糧受歡迎。

(圖片說明:寵物食品原料分布說明。)

所以,我的結論是:功能和營養水平是區分產品品質好壞的主要因素。健骨、明目,更多的蛋白質/纖維素,以及更好的味道是好產品的反饋中被消費者提及最多的元素。而纖維之外的消化支持,以及更高比例的水分則更頻繁出現在「差品」的用戶反饋中。

食物材料導致了好壞品質之分。這些發現可以幫助生產商製造更多「好品質」的產品,更好的跟上快速變化的寵物食品市場。由於時間有限,我的項目的關注點比較有限。未來的研究可以加入更多考量因素,比如價格、功效、用戶評價以及其他產品信息。

註:

本文編譯自數據博客《

How to Recommend Pet Food Product from Unsupervised Learning

》。

點擊「

閱讀原文

」查看。

內容僅為作者觀點,不代表DT數據俠立場。文中圖片部分來自作者。

作者 

| Summer Sun

題圖 | 站酷海洛

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號

DT數據俠

(ID:DTdatahero)後台回復「

數據社群

」,可申請加入DT數據社群。

數據俠門派

Summer Sun 對數據科學充滿熱情,她有三年的數據行業經驗,曾為大型金融機構分析海量用戶數據。她喜歡挑戰各類有挑戰的課題。

加入數據俠

數據俠計劃是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。申請入群請添加DT君微信(dtcaijing003)並備註「數據社群」,合作請聯繫datahero@dtcj.com。


推薦閱讀:

完美!五招解決狗狗不吃狗糧的問題
自製狗糧的家常做法
2億單身汪結盟:讓狗糧撒得更猛烈一些

TAG:狗糧 | 七夕 |