萬字長文,細數零售業中的那些數據挖掘問題(下)

萬字長文,細數零售業中的那些數據挖掘問題(下)

?引言

本文是 TalkingData 首席數據科學家張夏天翻譯自 Highly Scalable Blog 的一篇文章,介紹了零售業中的數據挖掘問題。

本文內容包括零售業中的多個常見問題,如響應建模、推薦系統、需求預測、價格差異、促銷活動規劃、類目管理、財務影響等。

其中涉及的資源分配優化問題、個性化推薦、定向廣告等業務問題,上下兩篇完整閱讀大約需要兩個半小時。

本次發布下篇,上篇請查看——

《萬字長文,細數零售業中的那些數據挖掘問題(上)》

問題 4: 價格差異

問題定義

零售商向客戶提供一組產品時,針對每個用戶都制定不同的價格來最大化整體的收入。另外,該問題可以重新定義為提供定向折扣從而在基線價格上改變價格。

應用

價格差異被廣泛的應用在零售業並且存在非常多種顯性和隱性的形式:

優惠券,店鋪級價格分區,和折扣都是價格差異的例子。

價格區分與通過數量折扣來提升銷售是相關的。

動態定價能用價格差異的原則和模型來增量的調整價格。

儘管我們在問題的定義中暗示了是細粒度的個體定價方式,但是這是非常極端的情況更多常見的方法是對大的客戶分群設置不同的價格。

解決方案

價格區分是最基礎的經濟和營銷問題 [SM11],因此

此處 G 是利潤,Q 是銷售數量,P 是單位價格,V 是可變的單位成本(大致相當於零售商拿到的批發價格),而是固定成本如管理成本。公式(4.1)中的價格和銷量是互相依賴的,因為隨著價格的提高需求會下降,反之亦然。價格和銷量的關係通常可以用一個線性函數來逼近,這一函數具有一個一般被稱為需求彈性的係數:

換言之, 需求彈性是需求量的百分比變化與價格的百分比變化的比率。公式(4.1)和(4.2)可以可視化如下:

需求曲線是一條由需求彈性和零售商利潤定義的斜線,數值上等價於(Po-V) · Q0,此處 P0 是由零售商設定的單位產品價格。一方面,當價格接近可變成本時利潤趨近於 0,雖然銷售量很高。

另一方面,高價格將導致銷售量下降,結果利潤也會變得很小。這基本上意味著價格服從於一個數值優化問題,並且零售商可以用統計技術來估計需求彈性並找到使得公式(4.1)最大化的最優價格。

這一方法,即所謂計量價格優化的實用性是比較有限的 [SM11] 因為又公式(4.1)表達的模型過於簡化了市場行為並丟棄了在競爭市場中一些重要的影響價格-數量關係的因素。例如,價格大幅度下降可能會引發競爭對手降低整個行業價格的對稱反應,所以所有的市場參與者最終都會處於一個銷售量和利潤都較低的狀況。

儘管計量價格優化有很多局限性,但公式(4.1-4.2)揭示了價格差異的本質。對於任意一個價格, 無論它有多優化,這一價格都是一種折衷。因為一些客戶會因為這一價格太貴而放棄購買,儘管他們可能願意以更低的在 P0 和 V 之間的價格(依然對兩種利潤是正向貢獻)購買該產品。

此外,一些客戶可以容忍高於 P0 的價格,儘管他們產生的銷售量會相對較小。在這兩種情況下,零售商無法獲取位於需求曲線和可變成本線圍成的三角區域之中的額外利潤。

價格差異是一種自然的方法來克服單一常規價格的限制,通過根據客戶的付款意願將客戶分群並向不同的客戶群體提供不同的價格。考慮一個這種策略的特殊情況,在前一圖表的常規價格外補充了一個較高的溢價(注意與單一價格策略相比利潤區域如何增加):

這一考慮帶來了零售商如何把相同的產品以不同的價格賣給不同的客戶這一挑戰性問題。一般而言,這需要在具有不同付費意願的客戶之間設置區隔以使得高付費意願的客戶不能以為低付費意願客群設定的價格來付費。零售商可以使用如下幾種區隔機制:

  • 店鋪區域:連鎖零售商店一般都位於不同的社區內,這些社區具有不同的平均家庭收入、平均家庭規模、最近競爭商店距離等人口屬性和競爭性因素。這就自然對客戶的價格敏感性以及尋找替代供應商的能力或者意願做了區分。這使得零售商可以在店鋪的級別上在不同區域設置不同的價格。

  • 包裝大小:諸如軟飲料或化妝品之類的快速消費品(FMCG)具有較高的周轉率,消費者自然可以選擇是頻繁購買少量產品或者儲存大量的產品。這種權衡也受到諸如家庭規模等人口因素的影響。這一機制通過購買大型或小型包裝的意願來創建區隔,並為不同包裝尺寸設置不同的單位邊際價格。買一送一(BOGO)優惠也與此機制有關。

  • 促銷活動:客戶可以根據他們是否願意等待較低價格還是以正常價格立即購買來區分。此種客戶分群方式被廣泛應用於服飾領域,在該領域季節性促銷是主要的營銷機制之一。

  • 優惠券:許多客戶不會願意以常規價格來購買某一產品,但是當有折扣價時卻會考慮購買。因此零售商可以從折扣中獲得額外的客戶,儘管他們貢獻的毛利率相較於那些以正常價格購買的產品的客戶較低。另一方面,向太過廣泛的受眾提供折扣可能是有害的,因為那些願意以正常價格購買的客戶也會使用折扣(當沒有折扣的時候)。前面章節中討論過的響應建模技術有助於解決這一問題。然而有一種 19 世紀就存在的傳統解決方案——優惠券。優惠券代表需要付出一定努力才能賺取或兌換的價格折扣(例如,客戶必須在報紙上找到它,剪下來並在商店出示),這就通過花費時間和精力獲得折扣的意願區分了客戶。

  • 銷售渠道:不同的銷售渠道自然代表不同的區隔,因為客戶對購買渠道的選擇與他們的支付意願密切相關。例如,與在雜貨店購買相同葡萄酒的顧客相比,酒類商店顧客的價格敏感性一直較低 [CU13]。

儘管這些技術已經應用很久了,但是要建立一個完整的折扣優化模型是非常挑戰的。並且,據我們所知,所有現有的模型都有這樣或者那樣的局限性。在本節剩下的部分我們考慮兩個價格差異模型,這兩個模型是根據美國超市(特別是 Safeway 在芝加哥子公司的數據)的數據設計並在這些數據上做過驗證的。

基於數量和地點的差異

文獻 [KJ05] 提出了這一模型,該模型的目標是聯合優化基於包裝大小的數量折扣和店鋪級別的區域價格。這一模型與我們在需求預測章節中討論的模型非常相似,只是該模型引入了更多的包裝大小和折扣參數。

讓我們考慮這樣一種情況,一個零售商運營多個店鋪,銷售的某種產品也有幾種品牌,產品的規格也有幾種,例如可口可樂和百事可樂分別有 2 聽裝、4 聽裝和 6 聽裝。目標是優化每種包裝的單位產品價格,這裡假設單位產品價格是可以根據產品規格和店鋪來調整。我們從標準的多元邏輯特模型(multinomial logit - MNL)開始,這一模型在前一節需求預測中討論過。

它表示顧客在時間 t 在商店 s 購買產品 j 的概率,J 是產品的數量(所有品牌的所有規格加上)。時間以相對較長的時間間隔(如周)進行測量。參數變數 x 可以使用以下回歸模型進行估計:

此處 zj 是產品規格,Pjts 是價格,djts 是折扣力度(單位美元),ruts 整合了諸如最近競爭商店等競爭性因素,而 fjts 則整合了環境變化因素如天氣。因此, 回歸參數 αk 基本上對應著客戶對品牌、規格的偏好、對價格的敏感性、對摺扣的響應度、對競爭者的偏好、對變化因素的敏感性,以及折扣對價格敏感性的影響等等。

文獻 [KJ05] 認為促銷案例中的價格敏感性回歸模型應該比以上僅用一個回歸量來表達價格敏感性更複雜,因為客戶會有囤積產品的情況,這就使得過去的促銷會提高其對當前產品價格的敏感性。這一方面可以通過將相應的回歸器分解為兩個部分來建模,如下所示:

以上公式中 α3 是平均敏感度而第二項則表示記憶效應。其中 W 是表示歷史深度,即過去的周數,p0 表示常規價格,而 p 是實際的折後價格。類似的,也有觀點認為對促銷的敏感性也與最近的促銷有關:

此處 wj 是最近的促銷活動過去的周數。促銷敏感性對 wj 依賴基於以下假設,兩次促銷之間的周期越長,則對促銷的響應度越高。

公式(4.3)允許我們預測銷售量,所以價格優化問題能夠根據公式(4.1)分時間周期來定義:

以上公式中 cjt 表示批發價格,而 Qjt 表示預測的銷售量。此處的優化約束條件是為了避免由市場競爭或者客戶行為等主要因素的變化引起的劇烈的價格變化和偏移。

文獻 [KJ05] 提出了這一特殊的約束條件,這一約束要求優化後的產品份額加權平均價格(表示產品的市場份額)不會超過優化前的份額加權平局價格(表示原始價格)。這一優化問題(4.4)可以在店鋪水平上得到求解,這意味著在規格和地點上都可以做差異化,或者僅在連鎖店級別上來差異化數量折扣。

個性化折扣和優惠券

儘管上面的模型在店鋪層面做價格差異也隱含了客戶層次上的價格差異,但是這一模型不是為單個客戶的折扣優化來設計的。接下來我們考慮文獻 [JT13] 提出的另一種模型,這一模型是為了專門優化個性化折扣和優惠券的。這一模型的主要優勢是它不僅是優化折扣的粒度,同時也嘗試為指定用戶提供折扣的最優時間和折扣的最優有效期。這些時間屬性上的優化思想來自於以下假設:一個客戶購買的概率不是隨時間恆定的,而是會隨著時間變化的,因此對每一個用戶而言都存在最優的折扣時間窗口。

這一模型的主要缺陷是其只能對特定品牌如廠商促銷來進行優化,而不能用於品類管理。你為了對摺扣的時間屬性建模,假設對產品的折扣力度為 d,我們將客戶 u 在時間 t 購買產品的概率分解為購買產品的概率和客戶在在時刻 t 購買的概率乘積:

對給定產品的購買概率密度函數能夠用公式(4.3)中用過的 MNL 的模型來估計。在時刻時購買的概率密度函數在文獻 [JT13] 中由厄蘭分布來建模:

此處參數變數 yu 可以用回歸模型來估計,該回歸模型與公式(4.3)中用來估計參數變數的類似,會用一個回歸量來描述折扣力度,因此之後可以對其進行優化。

上面定義的購買概率使得我們能夠對給定客戶的銷售量 Qu 作為折扣力度(以美元為單位)、折扣起始時間、和折扣周期的函數來建模:

以上推導可以使得我們導出如下毛利率優化問題:

這裡 m 是在正常價格下的毛利率。以上公式中的第一項對應著收入,收入由三個方面組成(促銷前的收入、促銷期間的收入和促銷後的收入);第二項對應著營銷活動的成本。下圖描述了這一優化問題:

頂部的第一個圖顯示了客戶 u 購買的概率密度函數曲線,此圖中對於給定產品在正常價格時的銷量對應著 S0 區域。一個固定的永久折扣增加的銷量對應的區域為 S1,因此總收入和促銷成本(如中間的圖所示)是與 S0 和 S1 成正比的。

時間優化的促折銷使得收入與 S0+S2 成正比, 其成本與 S02+S2(如底部的圖所示)。固定折扣促銷和時間優化的促銷之間的這種差異表明在概率密度函數具有某些數量性質時存在利用時間優化來改善毛利率的潛力。

問題 5:促銷活動規劃

問題定義

零售商向客戶提供一組產品時,針對每個用戶都制定不同的價格來最大化整體的收入。另外,該問題可以重新定義為提供定向折扣從而在基線價格上改變價格。

零售商準備一次促銷活動,即對某個或者一組特定商品進行有時限的折扣。對促銷活動的規劃需要估計到下列有關的值:

  1. 哪些產品的庫存需要避免在活動結束前缺貨?
  2. 什麼樣的價格會最大化收入?價格可以考慮是一個恆定值或者是一個從活動開始到結束不同時間段的函數。

我們將考慮庫存水平是預先確定的,零售商試圖計算最優價格這種情況。這是時尚零售商在處理季節性清倉和款式翻新 [JH14, CA12] 中遇到的典型問題。這一問題可以以不同的方式來定義,如將需求預測和價格優化作為獨立的問題來處理,也可以同時優化庫存水平和價格,總之其目的是最大化收入。

應用

促銷活動的規劃在零售中有如下的應用:

  • 清倉和季節性促銷是時尚零售業中的主要應用。
  • 某些商業模式如快閃零售(也被稱為彈出零售)只有促銷活動一種銷售方式。
  • 快消品和易腐品的零售商可以使用促銷活動策劃來調整銷售節奏與產品保質期同步 。

解決方案

動態需求預測和價格優化是經濟學中所研究的基礎問題,被稱為收入管理。收入管理的理論在書籍如 [TA05] 中有很好的闡釋和系統化的介紹。在服務業中的預定服務,如機票、體育場座位、酒店房間、租車等等場景中可以找到收入管理自動化的最先進和最有效率的例子。要理解這些技術可以如何在零售領域中使用,我們來考察由 RueLaLa(一個時尚零售商)提出來的方法論。

我們假設一個零售商計劃對 N 個產品或者產品組(產品組中的產品價格相同,如不同口味的酸奶,或者不同花色的 T 恤)進行打折。設 P 為價格集合,該集合包含每個產品可以設定的價格。在實踐中,P 通常是根據業務規則組成的比較小集合。例如,價格下限可以根據零售商的盈利水平定義為 29.90, 價格調整幅度根據心理價格可以設定為 5 美元,則 P=$29.9,$34.9,$39.9,$44.9,$49.9。

假設促銷活動中的所有產品或者產品組都有某些共同點,例如同屬於相同的類目「女鞋」或者「平安夜食品」,因此對一個產品的需求潛在的依賴於其他可替代產品的價格。

通過引入變數 S,其等於所有參與促銷活動的競爭產品(產品組)的價格之和,而對某一產品估計的期望需求則為數學期望 E{Q | i,pj,S},此處 Q 是表示需求量的隨機變數,i=1,2,……,N 是產品的索引,而 j =1,2,……,|P| 是單個產品或產品組的價格。既然 Q 與產品價格 S 和都相關,這就隱含地包含了產品價格與可替代產品的評價價格的比值對需求和其彈性都是有影響的。

現在我們可以在假設 S 為固定的並對所有可能的 S 求解這一優化問題 [JH14]:

當產品 i 的價格為 pj 時,二值變數 δi,j∈0,1 為 1,否則為 0。上述優化問題中的目標函數可以自然地表達為促銷活動的收入。第一項約束保證每個產品的價格都在 P 之中(原文可能有問題),而第二項約束保證所有產品的價格之和為 S。其他關於庫存水平的約束也可以加入到優化問題中來。

以上的優化問題需對需求 E{Q | i,pj,S} 做估計,這可以用前面章節中做需求預測和價格分群的技術來解決。然而,需要非常注意到缺貨(而且是可取的)是促銷活動中非常典型的情況,因此對很多產品的需求預測建模所要用到的歷史數據都是被截斷的。

正如 [JH14] 中所建議的那樣,可以通過使用在此前促銷期間沒有缺貨的產品的數據為不同產品類別構建畫像來解決此問題,並使用這些畫像來調整相應類別的需求曲線。

問題 6: 類目管理

問題定義

零售商根據類目銷售產品。一個類目表示一組相對內聚的產品,這些產品有很多共同點(如"甜點"、「女式牛仔」等),所以客戶有可能在他們的首選產品因某些原因缺貨時願意用另一產品來替代。

產品缺貨的主要原因有永久性的品種減少(如因為有限的貨架空間)和暫時的性的售罄。類目管理的目標是利用替代效用用優化方法計算出一個產品子集,這一子集在滿足物理約束如可用的貨架空間的情況下可以最大化毛利率。

應用

品類管理是一項相對專業化的工作,但是當目標是優化一個產品類目的整體收益而不是一個單一產品的收益時,它也會涉及到在促銷優化問題中存在的替代效應問題。零售商一般情況下對類目的整體收益的關心程度遠勝於對單個產品的優化,因此在本節中討論的方法可以被用在很多不同的應用中以實現最優解決方案。本節研究的模型可以直接應用於以下類目管理方式:

  • 倉庫的產品庫存水平優化。一個特別重要的應用是對易腐產品的庫存管理,這需要考慮到保質期和過去產品造成的潛在損失。
  • 優化貨架的布局來調整相關產品的份額。
  • 類目規劃(在類目中加入或者移除哪些產品)

解決方案

從計量經濟學的角度來看,類目管理問題是由收益遞減規律引起的。或者更具體地說,收入和成本與類目的規模關係是不同的,總的趨勢是消費者購買能力在某個時候達到飽和,同時由於店鋪面積和其他運營成本的增加,成本持續增長:

這一趨勢引出了類目優化問題。這是一個非常具有挑戰性的問題,因為它需要對整個類目中所有產品之間的相互依賴關係建模。然而,儘管面臨這些挑戰,在 [KOK07] 中已經提出了一種切實可行的類目優化模型,並在荷蘭的連鎖超市 Albert Heijn 中應用。在研究這一方法之前,我們先引入下列符號:

  • N={1,2,……,J} - 零售商給用戶提供的一個類目下面的最大產品集合,即所有品類。
  • fi∈{0,1,2,……} - 產品 j 的庫存水平。零售商通過選擇 f 為 0(產品不出現在品類中)或者非 0 來優化品類。
  • F0 - 統一庫存單位度量下的庫存總容量。這裡有個假設是所有產品的庫存水平之和不能超過 F0。庫存總容量可以由倉庫或者店鋪的可用貨架空間所約束。
  • Nh ? N - 店鋪 h 的品類,是總品類的子集。
  • dj 表示產品 j 的原始需求率(當所有 N 品類都展示給客戶時有多少顧客會選擇該產品)
  • Dj - 觀察到的產品的需求率(每天因為原始意願或者替代效應而實際選擇產品 j 的數量)。對給定產品觀察到的需求與原始需求和其他產品的可獲得性(替代效應)有關係,其可以被視為函數:

Dj({f1,……,fJ},{d1,……,dJ})

使用上述符號,品類優化問題可以形式化如下:

其中毛利率 Gj 是給定產品和其對應的觀測需求的函數。這一函數很大程度上與零售商的商業模式有關,所以我們下面介紹一些通用的函數模板,基於這些模板可以根據實際的使用情況來定製毛利率函數:

公式(6.2)將觀測需求乘以毛利率 m,這是對毛利潤最簡單的建模方式。該公式隱含假設了補貨及時而沒有缺貨的情況。雜貨這樣的快消品正是屬於這種情況,但是在其他領域如服飾則必須如公式(6.3)那樣考慮缺貨的情況。銷售易腐貨物的零售商還要考慮貨損,公式(6.4)通過引入單位損失變數 L 來對此進行建模。

為討論方便,後面我們假設所有產品的補貨都是及時的,所以缺貨是不可能或者是可忽略的。因此我們可以將 j∈{0,1} 作為二值變數來表示產品是否在類目中。更複雜的處理缺貨的模型可以在 [KOK07] 中找到。

要解決(6.1)中的優化問題,我們需要定義觀測需求函數。在無缺貨假設下,需求函數可按照下面公式來建模:

其中 αk-j 是產品 k 被產品 j 替換的概率。上述公式是比較自明的:第一項是原始需求,而第二項是所有被從類目中移除的產品的累計替代需求。

公式(6.5)需要估計替代概率 αk-j 和原始需求率 dj。為了做這些估計,我們假設下列變數是已知的(我們已經在本文的前面章節討論過需求預測):

  • Qjh,j∈Nh – 每個客戶在店鋪對產品的需求。假設 Kh 是一天內進過店鋪 h 的客戶數量, 則 Dj = Kh * Qjh。
  • Q0jh,j∈Nh - 每個客戶在店鋪 h 具有全品類產品時的需求(假設商店的品類是全的)。因為品類齊全所以不存在替代效應,因此 Q0jh 就是原始需求。

估計替代率 αk-j 是比較困難的事情因為產品集合 J 中有多達不同 J2的替代率。不過,[KOK07] 找到了下述客戶行為的簡化模型,在實踐中這一模型有足夠的精度並僅需要用一個而不是 J2 個變數:如果產品 k 買不到,客戶會選擇其第二選擇產品來替代的概率為 δ,這一概率對一個類目下的所有產品都是一樣的,則客戶不買任何東西的概率為(1- δ)。這一模型引出了如下替代率的簡單公式:

為了估計 δ, 我們將給定店鋪的總需求定義為Qjh(可由歷史數據來估計)之和,

另一方面,該值也可以根據公式(6.5)估計如下:

現在 δ 可以通過最小化總需求的實際值和預測值之間的差異來估計:

求解優化問題(6.1)的下一步是計算公式(6.5)中使用的原始需求率。我們首先注意到店鋪 h 對 N 中所有產品的總需求可以按如下方式計算:

其中 Vh 是每天到訪店鋪 h 的客戶總數。在公式(6.10)中,所有 Q0jh 之和乘以 Vh 表示在給定全品類時的的總需求。然而的值時針對擁有全品類的店鋪估計得的,其值時與給定店鋪相關(如地點,店鋪面積等等)而沒有被建模的。這可以通過公式(6.7)估計的類目需求和從公式(6.8)預測的需求比值來補償調整。

在一個品類有限的店鋪,總需求是以下兩個部分的和:對給定店鋪品類中存在的商品的需求和對中其他產品的需求。兩部分的比率可以由表示如下:

自然的,Th * rh 表示對品類中存在的產品的需求分額,而(1- Th * rh)則表示對不在品類中的產品的需求份額。最後,我們對單一產品的需求可以當作是總需求的一部份來計算:

所有公式(6.12)和(6.9)中的係數都可以根據數據來估計,因此我們可以把所有公式展開到原始優化問題(6.1)中,則這個問題可以使用 [KOK07] 提出的數值方法來求解。

公式(6.1)將為每個產品都產生一個假定的最有庫存水平 fj。這些庫存水平值可以用來調整庫存和優化貨架布局。值得注意的是該模型使得零售商可以做假設分析來評估對品類和庫存水平的改變會如何影響毛利率。

例如,零售商可以畫出毛利率根據給定產品或者產品組的庫存水平變化的函數曲線。這些曲線對易腐產品尤其具有描述性,因為毛利率是凸函數,當庫存水平為 0 時函數值為 0,而當庫存水平過高時毛利率因為產品過期造成的損失也會為 0,毛利率的最優值是在兩種極端情況之間。

問題 7:財務影響

如果缺乏上述被討論的優化方法的財務表現方面的數據,我們對這些方法和對應的數據問題的概述將是不完整的。儘管這些數據是不難獲取的,但對此我們仍然需要謹慎對待,因為財務表現與零售商的商業模型機密相關,並且事實上我們無法隔離其他環境因素如市場增長或者競爭對手的行動對優化問題的影響。

除此之外,這些數字可能因很多因素而有很大的差異,所以本文中我們的目標只是提供一些基準,使得讀者可以對優化的潛在幅度有所了解。以下列表收集了一些關於這些優化方法對財務影響的實例:

響應模型廣泛用於整個營銷過程,從零售到推廣活動 [EP13]。經常有報道稱,與隨機投放相比,響應模型可以將推廣活動的收益率提高 20-30%,而提升模型可以帶來 15% 左右的實質性提升或在其他方法都不起作用的困難的情況下實現盈利 [PS08]。

在 RueLaLa 的實踐中對 [JH14] 中提出的營銷活動優化進行了全面評估,得出的一般結論是,綜合優化模型比之前使用的啟發式演算法能提高約 10% 的收入。 [CA12] 中提出的並經 Zara 驗證過的事件優化模型聲稱可提供 5.8% 的收入增長。

類目管理框架已在 Albert Heijn 進行了驗證,以優化 37 個商店中 25 個子類別的分類。發現在這 25×37 = 1295 個情況中,使用傳統方法有 701 個不理想,在使用了新的類目管理方法進行優化後可以提高約 6.2% 的毛利率。

最後,值得注意的是,大多數這裡討論的優化方法不會顯著的影響零售商的成本,因此收入的提升大概率的直接帶來凈利潤的提升。

結論

在前面的章節中我們概述了一些零售相關的計量經濟學問題,給出了其應用和用例,並且闡述了可以應用到這些問題上的數據分析方法和優化模型。在最後的一節中,我們將把上述這些模型聯繫起來以提供一個全景式的總結。

由點到面

本文的主要目的是描繪完全依賴於數據挖掘和數值優化的決策自動化框架。因此,將這個框架可視化為一個消費數據併產生可執行動作和決策的管道是合理的。

首先,我們可以將數據探索和知識發現流程放入一個單獨的層級中,該層級主要使用無監督學習演算法,並且主要依靠人為因素來評估數據挖掘結果,例如客戶群或者是購買產品的頻繁項集。

雖然這些過程在實踐中非常重要,但它們很難集成到自動優化過程中來,因為模式的發掘通常依賴於手工流程而且通常相比於增量式優化它對戰略決策更有用。不過這一層的輸出可以配置到下游的過程中,例如,新發現的客戶群可用於定義新的傾向模型或引入並優化專屬折扣。

接下來的兩層分別與建模和優化有關。廣義而言,建模層的基本目標是提供一個全面的消費者模型,定量描述他或她的價格敏感性,對活動和折扣的響應傾向,用一種產品替代另一種產品的意願,對推薦的接受度,等等。

但是在實踐中建立這樣一個全面的模型是非常困難的,所以我們使用多種專用模型來處理不同的問題。然而,需要指出的是,這種想像中的消費者模型涉及到所有類型的優化問題,因此獲取有關客戶行為各個方面的全面數據至關重要。

優化層的主要挑戰是多目標的聯合優化。聯合優化對計算來說是一個嚴重的挑戰,而且最重要的是聯合優化受到底層預測模型能力的限制,所以幾乎所有的優化技術都只能處理一個或兩個目標。

我們把這些層都放到下圖中。組件之間存在許多可能的依賴關係和相互作用,因此我們僅展示了一個與響應建模相關的樣常式流,以免圖變得過於混亂。

定價的重要性

在這些不同的問題和目標中,我們需要非常重視定價決策以及所有於定價有著直接或間接關係的的優化問題。讓我們用一個經典例子來說明定價決策的重要性。會議一下企業利潤的基本公式:

G = Q · (P - V)- C

其中 Q 是銷售量,P 是價格,V 是可變成本,而 C 表示固定成本。假設一個服裝零售商每月以 40 美元的單價銷售 10 萬件服裝,假設每件服裝的批發價是 25 美元而固定成本為一個月 50 萬美元。我們可以計算銷售量、價格、可變成本和固定成本在變化百分之一的情況下是如何影響利潤的:

在這個例子中,我們可以看到定價對利潤的影響比其他變數大得多。儘管這是一個過於簡單和任意的例子,這一模式在眾多不同行業的不同企業中存在。這使我們得到如下結論:零售商應特別關注與定價(折扣、個性化價格、動態定價等)有關的優化方法以及支持這些方法的數據挖掘流程。

我們也注意到全渠道零售可以給自動定價優化帶來新的機會。既然價格差異是最有力的定價技術之一,則定價優化的理想環境是為每一個客戶提供顯示或隱式(折扣)的個性化價格,而且所有的價格是可以動態調整的。數字渠道恰好提供了這些條件,其中每個客戶都有自己獨立和動態的對零售商的視圖。

隱含維度的重要性

如我們已經提到的,許多零售業中的優化問題與用戶的行為模型是內在相關的。在個人客戶層面建立這種模型的能力是數據挖掘技術帶來的最重要的好處之一,也是一對一營銷的關鍵推動力。

客戶建模的最複雜的例子可以在推薦系統中找到,這些系統通常使用隱式維度的概念來捕捉客戶和產品的心理特徵。這一概念非常的重要,它可能遠遠超出推薦系統的範圍,但據我們所知,它並沒有如期望的那樣在其他應用中被廣泛應用。這使我們得出這樣一個結論,即整體的優化系統可以將推薦領域的最先進的技術應用到那些不常見的應用中而受益。

展望

在零售業中實現完全的自動化決策是極具雄心的。甚至可以說,在實踐中想要衡量這些優化方法的表現幾乎是不可能的,因為觀察到的收益提升可能與市場趨勢,競爭對手的行動,顧客品味的變化以及其他因素相關。

這個問題在經濟學教科書中被稱為內生性問題,這對於數據驅動優化技術的研發者和用戶來說都是一個巨大的挑戰,而且即使看起來成功的案例也會受到該問題的挑戰而顯得其結果沒那麼可靠。

儘管如此,在過去的十年中,主要的零售商一直在尋求將數據挖掘與數值優化技術結合在一起的技術的整體解決方案。這種先進的系統將是企業數據管理演進的下一個階段,它將遵循對數據倉庫的共識並大量採用數據學科學方法。

— 全文終 —


推薦閱讀:

玩轉Pandas,讓數據處理更easy系列5
推薦系統日常與工作-PPT
俄羅斯國立高等經濟大學的Kaggle公開課
【Live預告】如何從0開始通過參加Kaggle拿到Amazon實習Offer?
數據挖掘實戰1:利用LM神經網路演算法進行電力竊漏電用戶自動識別

TAG:數據挖掘 | 數據分析 | 零售行業 |