當你用AI來談咖啡生意,星巴克都能被輕鬆幹掉
文/數據俠 Mario
對生意人來說,店鋪的選址一向是個頗為「考究」的事情。在大數據和演算法的幫助下,這件事今後或許可以交給機器和模型來完成。在本文中,美國的一位數據俠Mario Aksiyote以紐約為例,為我們演示了一套咖啡店選址的科學姿勢。
「不眠之城」的咖啡情節
咖啡是紐約的「城市之魂」。當你看到「大蘋果」街頭遍布著3389間咖啡店,便會明白這座城市是一個「不眠之城」。
追溯到17世紀中葉,當時其他殖民地偏愛茶飲料,將咖啡打入冷宮,而紐約卻對咖啡情有獨鍾,成了重要的咖啡大區。
到了19世紀中葉,紐約已經成為美國最大的咖啡烘焙中心之一。最近,初創企業MassiveHealth的研究就發現,紐約市民的咖啡攝入達到了美國其他城市居民的6.7倍左右。
如果你是一位紐約人,那麼你現在很可能正喝著一杯咖啡。
(圖片說明:咖啡品牌店Caffe Reggio在1974年的店面;圖片來源:Caffe Reggio)
咖啡對紐約來說如此重要,以至於它的容器之一——由Leslie Buck在1963年設計的經典Anthora紙杯成為了這座城市的標誌之一。
(圖片說明:Anthora咖啡杯在經典美劇《法律與秩序》中常常「露臉」;圖片來源:NBC)
不過,儘管你現在還是可以從街上的雜貨店或酒店買上一份紙杯咖啡,但這種咖啡已經不是市場主流。
和美國的其他區域一樣,紐約的咖啡場景經歷了各種「咖啡浪潮」的洗禮。
然而,你要是覺得本文是想要回答類似「第四次咖啡浪潮是否出現」這些爭議性的話題,那就理解錯了。我們感興趣的核心問題是紐約咖啡店的店鋪分布。
在這篇文章中,我們希望以紐約的咖啡店為例,來探索一個空間經濟學中的基本問題——商店是如何確定營業地址的?
為了解決這個問題,我們需要藉助不同領域的技術和理論,來建立一套可以科學預測紐約最佳咖啡店選址地點的模型。
科學預測選址地點的方法:建立一套預測模型
下面這張地圖展示了紐約城所有3389家咖啡店的分布(排除餐館、超市和其他可能售賣咖啡的商鋪)。
地圖上的每一點都代表著一個基於地理位置作出的商業選址決策,顯然,紐約的某些地區相較其他區域更受咖啡店主的歡迎(這其中曼哈頓中城和下城獨佔鰲頭)。
為了更好地理清咖啡店的選址因素,我們開始思考:
是什麼原因使得一個地區比另一個更具吸引力呢?為什麼咖啡店存在著在相同地區集群化的趨勢?目前的咖啡店布局是商業的最優布局嗎?
為了弄清楚這些問題,我們建立了一個模擬紐約城咖啡店地理分布的模型。參考了博弈論中的思想,我們把建立模型的過程分成了三部分:
1. 輸入:確定哪些是影響咖啡店選址的關鍵因素
2. 模擬:基於不同的輸入,反覆進行模型優化
3. 預測:紐約未來的咖啡店的最佳選址是哪兒
影響咖啡店選址因素:價格、距離、人口、競爭、文化等
首先我們來看看,哪些是影響咖啡店選址的主要因素呢?
作為消費者,決定去哪裡買咖啡往往非常簡單。大多數情況下,我們基於口味偏好,價格高低,遠近方便程度等進行選擇:為了喝上一杯你喜愛的咖啡店的咖啡,你願意走多遠的路,花上多少錢呢?
作為咖啡店店主,決定在哪裡開店卻會相當複雜。
是不顧市場飽和且有激烈競爭的情況,在靠近布萊恩公園(曼哈頓)的地方開上一家店呢?還是在一個顧客密度較小但競爭不大的地方,比如托滕維爾(斯塔騰島)開上一家呢?倘若定位是高端咖啡店,選址是不是應當遷往公寓租金最高的葛蘭姆西公園(曼哈頓)呢?
為了總結出一套能夠預測咖啡分布的影響因素,我們從著名的霍特林模型和它背後的最小差異原則入手。霍特林模型來自於「供應商傾向於選擇靠近顧客的地址」這一假設。
基於這一原則,競爭者傾向於在所有可能的顧客中心——相同地點選址。這便是上圖的由來:曼哈頓中城和下城,這兩個紐約人口最密集的地區以壓倒性的優勢彙集了紐約大多數的咖啡店。
(圖片說明:霍特林模型相關分析演示,紅色和綠色方塊代表某沙灘邊上的2個冰激凌攤販,假設總共有100名顧客都準備就近購買,那麼只要其中一個攤販的位置移動,它們的顧客數量也會相應發生改變。)
儘管霍特林的理論有助於我們更好地理解店鋪和顧客之間的距離、以及店鋪之間的競爭是如何影響商業選址的,它仍有局限之處:霍特林假設所有的競爭者都提供相同的服務,這與2017年紐約咖啡業的真實情況大有不同。
而一些霍特林模型的修正版本甚至認為,兩個異質的競爭者傾向於最大化彼此之間的距離,來更好地形成壟斷勢力。
因此,我們還需要考慮那些使咖啡店彼此互不相同的因素——飲品的質量,價格水平和咖啡店的店鋪文化。
最後,鑒於我們在對真實世界的選址進行建模(存在規划上的限制、需考慮周邊的環境),我們將可獲得的商業區位信息、周邊地區的社區文化和經濟水平也納入模型之中。
演算法和模型的不斷打磨、優化
接著我們進入模擬環節。
我們利用接近霍特林模型原始公式等一系列基礎方程進行模擬過程的初期推導。對於每個方程,我們通過數學計算進行調整,以賦予不同的權重值(Wu1,Wu2等),不斷對模型進行改進優化以產生更接近現實的結果。
下面我們以咖啡店C為例,給出了不同指標的計算公式。
咖啡店C的功效評分值:我們基於咖啡店飲品質量與距離兩個因素之間的均衡,定義了評價咖啡店C的功效函數。
(其中飲品質量的數值通過整合從不同渠道獲得的關於咖啡店C的點評得到)
顧客光臨咖啡店C的可能性:我們將店鋪的功效評分值占所在地區其他所有咖啡店功效評分總值的比例,作為顧客選擇咖啡店C的概率。
咖啡店C位於區域N時的顧客人數期望值:假設一家咖啡店選址在區域N,我們可以通過將咖啡店選址在區域N內各地區時顧客光臨的概率乘以該地區的人口總數進行加和,來估計咖啡店C可能擁有的顧客人數。
詳細寫法表達如下:
得到上述方程後,我們對紐約市的3389家咖啡店進行了模擬,並不斷通過對咖啡店進行重新定位、使總體最接近納什平衡情況,得到了我們第一份關於咖啡店最佳分布的結果。
不過,這份結果對於我們分析紐約咖啡分布圖毫無幫助,反而與紐約的人口分布圖有著驚人相似。
這一失敗的嘗試提醒我們要考慮街頭咖啡的一個重要特徵:它們一般是白天飲用的飲料。因為需要對模型做的第一點優化便是在模型中利用白天的人口(而不是一般居民)的地理分布信息。
(圖片說明:紐約人口居住分布情況。)
(圖片說明:紐約白天人口分布情況)
完善了這一點後,我們的模型就立刻發現,咖啡店在曼哈頓中城和下城顯示出了明顯密集的集中趨勢,修正後的地圖也與實際的情況更加相近。
然而在一些特定地區(如第五大道,華爾街等)卻出現明顯過於飽和的現象,周邊大量地區密密麻麻地被咖啡店佔據,而這個數字幾乎是不符合實際的。
顯然,咖啡店應當只位於經濟貿易集中的地帶(即商圈);我們想起了之前討論到的一個關鍵輸入變數:周邊區域的經濟水平,將它納入模型後該問題得到了解決。
接著,將商圈的相關信息納入模型後,我們的地圖離目前紐約咖啡分布情況又近了一步。
中央公園南部和華爾街的過飽和情況得到緩解,而曼哈頓以外的咖啡店分布開始清楚地表現出沿著主幹道分布的特點;在更遠的區,咖啡店往往靠近居民生活圈的中心。
就當我們對整合結果十分滿意時,我們還想起了沒有考慮過、卻是最為舉足輕重的經濟因素:價格。
我們通過修正我們的功效函數,將價格因素整合到了模型之中:
把價格作為輸入量納入模型是我們為了成功度量而進行優化的過程中必不可少的一環——畢竟一家店鋪的成功與否,是由總收入的多少而非顧客的數量定義的。
進一步的,為了解釋紐約城各地區飲食,租金,房價等價格差異,我們將周邊社區經濟綜合指數作為輸入量納入模型;因此當地區的物價總水平越高時,咖啡的價格因素在我們模型中產生的影響也越小。
儘管目前模擬的全部店鋪選址分布已經同現實高度近似(在前面已指出),我們得到的地理價格分布地圖卻遠非如此:尤其在模擬曼哈頓區咖啡價格時,實際情況遠遠低於預測的理論值。這主要是由以下原因導致的:
曼哈頓超高的咖啡店密度→曼哈頓店鋪間激烈的相互競爭→導致曼哈頓咖啡的低價格
這次試驗的失敗主要原因出在了咖啡文化上。任何一個2017年在紐約東村地區(在曼哈頓,是嬉皮士出沒的地區)買過咖啡的人都知道——如今在曼哈頓,咖啡店之間比拼的不是價格,而是文化。
因此,在模型中還需要考慮到文化的因素。
La Colombe和Dunkin』Donuts(兩家紐約的著名咖啡店)之間的競爭不僅僅在於價格方面,還存在文化上,因為它們展現給消費者的是完全不同的兩類文化(以及產品)。
不同的咖啡店有著不同定位的目標顧客——一家精品咖啡店也許在布希維克走紅,卻很可能在時代廣場碰壁;Dunkin』Donuts可能在時代廣場吃香,卻在對它不太友好的地鐵沿線遭到冷遇。
為了描述這些差異,我們將咖啡店分為(互相存有競爭的)三類:
1.主流咖啡店(Blue in maps、Dunkin』Donuts、星巴克、7-11……)
2.精品咖啡店(Pink in maps、Stumptown、La Colombe、Blue Bottle……)
3.紐約當地特有的咖啡店(例如只有NYC才有的Green in maps)
利用Topos上相關的特徵和指數加權(抓取每個地區的「心理」特徵),我們能夠對紐約每一個地區(N)的咖啡店(C)計算出其文化契合值。
因此我們進一步修改了功效函數,將文化契合也作為其中的一項參考因子。
和之前模擬過程相同,我們允許每一家咖啡店重新進行分布,直到總體近似達到綜合各方面因素下的納什平衡。
這一平衡的條件確保了區域內部不會因為特定的一類咖啡店而出現明顯過於飽和的情況,即便在該區域中這一類咖啡店的文化契合度達到了最佳狀態。
(圖片說明:左圖為咖啡店的實際分布圖,右圖為基於各種因素模擬出來的結果。)
如圖可見,最終模擬的結果與2017年紐約的咖啡文化實際情況相近。曼哈頓中城被主流咖啡店佔領;精品咖啡店攻陷了曼哈頓下城區、布魯克林和皇后區東部,但很少在布朗克斯出現,在斯塔騰島更是寥寥無幾;本土咖啡店由於相互之間的異質性,並不會局限於任一特定地點。
當然,還存在很多的細節信息(手沖咖啡?京都冷萃咖啡?下一代咖啡汽水?……)能夠讓我們來細化目前的模型,不過在現階段,我們更好奇該模型會對紐約城未來的咖啡店分布做出怎樣的預測。
預測未來的200家咖啡店開在哪
最後到了揭曉我們模型的預測結果的時候了,紐約接下來可能會開的200家咖啡店會開在哪裡呢?
根據目前紐約三大類咖啡店鋪的數量比(主流:當地:精品),我們試圖對紐約未來開張的200家咖啡店鋪的最優布局利用模型進行模擬。
上圖是模型預測的曼哈頓地區未來200家咖啡店的分布,圖中綠色代表本土型咖啡店,藍色代表主流咖啡店,粉色代表精品咖啡店。
令我們大出所料的是,曼哈頓新開咖啡店數目低於大家的預期;相比之下的布朗克斯區則如同一片機遇的沃土,在200個模擬點中佔據了31%的最大份額。這也恰好與該區近年來人口數量的增長以及私人領域工作機遇的增加相對應。
為了獲得更多有關文化特異性的信息,我們決定針對特定的咖啡店類型和品牌,繪製出它們未來10家店鋪對應的選址地圖。
未來的10家Dunkin』Donuts開在哪?
除去炮台公園這一例外,布朗克斯區4:皇后區4:曼哈頓區1的結果表明:Dunkin』Donuts在距離曼哈頓區較遠的地方擁有更多的成功機遇。
(布朗克斯:4家;皇后區:4家;曼哈頓:1家;布魯克林:1家)
未來的10家星巴克開在哪?
與Dunkin』Donuts的情況相反,星巴克在曼哈頓更有可能獲得成功,畢竟在那裡,它的高價格造成的影響將被削弱。另外我們還發現,超過半數的星巴克的位置都選址在外部的區域。
(曼哈頓:5家;皇后區:3家;布朗克斯:1家;布魯克林:1家)
未來的10家精品咖啡店開在哪?
曼哈頓和布魯克林仍然更青睞於精品咖啡店,為其保留了最多的機遇(意料之中)。值得一提的是,精品咖啡店在每一個地區都表現出選址上的特定趨勢:在曼哈頓選址偏向上部,在布魯克林偏向外部。店鋪不再是簡單地聚集在曼哈頓下城和布魯克林的通勤區,我們發現其在曼哈頓區的位置正向著哈萊姆區上移,而其在布魯克林的選址正逐步偏離通勤區,一直遠到皇后區的瑞吉屋(坦白說這也許是皇后區最布魯克林的地區了)。
(曼哈頓:5家;布魯克林:4家;皇后區:1家)
結語:分析咖啡店選址的意義
無疑,比起現代城市生活這一更大的謎題,咖啡店分布不過是其中小小的一塊;然而它們的重要性絲毫不容小覷。
從它們在啟迪上的影響到它們始終作為「第三生活空間」的中心地位,咖啡店——以及它們置身參與、創造、設計的咖啡文化——在現代生活體驗中扮演了一個重要的、也不無爭議的角色。
因此,通過不同途徑了解咖啡店,從自然語言處理到模擬預測未來的咖啡店選址等,都是一種微小而重要的途徑。而我們還希望通過大數據和人工智慧這一對利器來改變人們對城市的傳統認知。
註:本文編譯自http://Medium.com網站文章《The Next Wave: Predicting the future of coffee in New York City》,略有刪節,文中圖表均來自原文,關注DT數據俠點擊「閱讀原文」可查看原文。本文僅為作者觀點,不代表DT財經立場。
編譯 | 儲奕宇 胡世龍題圖 | 美國街頭星巴克
期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。
數據俠門派
本文數據俠Mario Aksiyote,美國Topos公司數據和前後端工程師。Topos是一家位於紐約、致力於用人工智慧來輔助城市認知的初創公司。
加入數據俠
「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請關注DT數據俠回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。
推薦閱讀:
※酷站推薦 - russellcloud.com - RussellCloud | 深度學習實驗平台
※AI不僅會寫詩,會畫畫,會學習,現在連好奇心都有了......