工程師如何解決穿衣搭配煩惱？——滴搭平台與演算法

09-04

來自專欄我是程序員23 人贊了文章

摘要：阿里工程師們推出了一個滴搭平台，基於千萬時尚達人的優質搭配，已經學習出了一套比較成熟的演算法，幫你找到最合適的穿搭。不信？下面一起來深入了解「滴搭」背後的演算法。

作為一名工程師，每天與代碼打交道，往往沒有時間注意自己的打扮。試想，如果身邊出現一位有品味的搭配高手，為你量身打造形象，豈不美哉？

如今，阿里工程師們推出了一個滴搭平台，基於千萬時尚達人的優質搭配，已經學習出了一套比較成熟的演算法，幫你找到最合適的穿搭。不信？下面一起來深入了解「滴搭」背後的演算法。

自從去年「鹿班」AI設計師完成了1秒8000張海報的壯舉，團隊的小夥伴們開始思考如何讓海報變得更加美觀豐富。其中一部分同學嘗試用AI產出更加豐富的圖文內容，成為陳列師、內容運營的好幫手，這部分工作，取名「滴搭」。

滴搭，是圖文演算法平台化運維的一次大膽嘗試和穩定落地。它以深度學習網路為基礎，以開放式的生產平台為載體，賦能運營、賦能達人，支撐以多商品搭配形式為主的圖文內容生產。從2017年2月開始，滴搭的演算法技術陸續在淘寶、天貓的多個業務上落地，橫跨多個行業，並在大促中承擔使命；輔助數萬名達人生產搭配幾千萬套，覆蓋商品數百萬，服務商家數十萬。

滴搭在三個方面做出了貢獻：

內容化生產：以深度學習網路為基礎，廣泛收集商品信息、用戶信息、運營知識作為輸入，協助內容生產，生成質量和達人相當。圖文演算法應用到多個行業的多個業務中。
平台賦能：演算法和工程結合，運營可在滴搭平台選品、生成搭配、個性化投放，一站式管理。
效率提升：全站達人日均生產幾千套搭配，演算法小時生產百萬套搭配，生成效率數量級提升。演算法搭配擴充了投放總池子，使得個性化效果得到提升。

下面，我們來詳細地介紹滴搭平台。

一、滴搭平台簡介

滴搭是運營前台、演算法平台、合圖平台、個性化投放等等多個平台和演算法的統一稱謂。

運營在前台做完選品，經過深度圖像處理和搭配演算法，學習出可搭配商品的特徵表示。當一件或多件商品作為觸發請求搭配時，可以從百萬級的商品庫中找出與之可搭配的、符合一定運營規則的其它商品，並根據觸發商品和產出商品的信息，生成描述性標題。最後經過智能排版技術，合成符合視覺審美的展現形式。生成好的搭配經過推薦演算法，個性化地投放給用戶。以下為滴搭後台的部分效果展示：

滴搭平台經歷了幾次較大的演算法改版，現在基於淘內的優質搭配已經學習出了一套比較成熟的演算法。除了保證一套搭配中的個體風格、顏色、配飾等等做到貼合，滴搭還吸取了運營、達人的經驗，嚴格按照成套規則進行產出，例如在服飾領域，上衣+下衣是合理的，但是下衣+裙裝是不合理的；在登山場景，帳篷+手電筒+登山服是一個合理的組合，而燒烤架不是必須。

接下來，我們將重點介紹滴搭的演算法。由於我們涉及的行業很廣，圖文演算法的應用業務非常多，為了更好地聚焦於演算法本身，以下介紹若無特別說明，將以服飾行業的搭配業務為例。

二、滴搭演算法

滴搭需要完成搭配圖片生成、搭配描述生成兩部分工作，因此我們分別在圖、文上設計演算法框架。底層的數據是公用的，包括商品圖片、商品標題、運營輸入以及其他side information。在這個數據之上，我們先完成搭配圖片的生成，再對該搭配進行文本描述。

在圖搭配的演算法中，我們用CNN（Convolutional Neural Networks）進行圖片預處理，以DSSM（Deep Semantic Similarity Model）作為基本框架，在此基礎上嘗試了兩種搭配邏輯演算法：第一種是基於LSTM（Long Short Term Memory）的序列化搭配生產，第二種是基於DAN（Deep Aggregated Network）的無序列化搭配生產。在產出圖搭配後，我們將產出結果結合文案輸入語料，輸入文案描述模型CPGN（Context aware Pointer-Generator Networks），產出文本描述。最終的結果里包含圖文內容，是搭配的整體化描述。

以下我們將分別介紹圖文演算法。

2.1 圖搭配演算法

2.1.1 相關工作

服飾類搭配在近些年的學術圈有了比較快速的發展。生成一套搭配，總體上有兩種思路：

利用傳統圖像處理方法，將圖像底層切割，利用專家知識構成細粒度的、可解釋的搭配關係；
基於深度學習方法，利用圖像和文本技術做深層抽取和表示，用深層網路去隱式地學習搭配關係。

在這些工作中，[1]試圖給一套搭配打分，使用基於深度學習的多模態、多實例作為特徵，質量分作為標籤。[2]用雙向LSTM網路模擬搭配的序列化過程，可以生產搭配、或者給一套搭配打分。[3]雖然不是服務於搭配業務，但它將圖像和文本結合起來，利用搭配里商品風格相近的原則，學習出商品的風格表示。[4]用到了蒸餾網路的方法，將Teacher-Student網路巧妙地嫁接在特徵表示後，使得搭配能夠遵循知識圖譜規約。

這些文章在學術上都給予我們很多啟發，但是目前，據我們所知，在電商平台還沒有一個完全智能化的搭配平台，可以在線實時地產出內容並進行投放。線上生產的難點，一是數據量非常龐大，二是對於可投放的質量要求極高。滴搭吸取了前人工作的優點，並在網路核心（DAN）和向量對齊（DSSM）兩方面做出了獨創性的工作。這兩個網路在拿到更好效果的同時，也解決了數據龐大和線上效果保證兩大難題。

滴搭的整體框架是第二種方法。我們選擇深度學習方法作為模型基礎的原因是，深度學習的發展使得網路的高層特徵已經能夠比較詳盡地涵蓋圖片的多種信息。比如我們對白底圖的CNN高維向量進行K-means聚類，會發現相同形狀和風格的圖片聚在一起。這使得我們有信心可以利用深度學習網路的高層特徵直接進行計算。另一方面，滴搭不是專門為某一行業定製的平台，專家知識無法跨行業通用，且目前除了幾個大行業之外，很多行業並沒有開源出足夠豐富的知識圖譜。為了滿足線上業務要求，滴搭又融合了專家知識作為約束條件，因此對於結果具有部分解釋性。

2.1.2 準備工作

數據：我們最開始的訓練數據來源於Polyvore網站，該網站下有大量用戶提交的搭配樣例，並且提供其他用戶點贊和評論。在遷入淘內業務後，我們收集了淘內達人產出的幾十萬套優質搭配，對訓練數據進行了重新整理。

特徵表示：首先，我們需要對商品進行表示化。最直接能展現一個商品信息的來源是其圖片，我們依靠鹿班千萬級的白底圖庫，對進入商品池的商品抽取特徵。這裡我們用的是CNN技術，具體模型為inception v3。具體做法如下：

以類目作為label，對pre-trained模型進行fine-tune，抽取倒數第二層的向量表達作為該商品的圖片表徵。
將第一步的所有圖片的向量表示進行帶類目約束的K-means聚類。考慮到搭配中的類目關係以及不同類目下商品數量分布的不同，我們針對性地對K-means做了優化，使得聚類結果更加集中且分布平衡。一個類目下會有多個聚類結果，聚類結果用cluster表示。該步驟後，每個商品都被聚類到其中一個cluster下。
將第二步得到的cluster作為label，重新用inception v3進行fine-tune，抽取高維向量表達作為最終的圖片特徵。

在CNN的基礎上增加K-means的原因在於，我們希望圖像上相似的圖片能在向量表示上有更加接近的距離。而CNN在K-means之後的分類結果也的確比最開始得到了提升，視覺上更加相似。聚類後結果部分展示如下：

此外，由於圖片有時候並不能涵蓋所有信息，我們加入了side information作為信息補充。目前加入的side information包括商品的類目和風格。

2.1.3 模型一：基於LSTM的序列化搭配生產

首先，我們將準備工作中通過CNN得到的高維向量，和side information的向量，經過embedding和stacking的變換，作為模型的輸入層。

其次，輸入向量經過一層MLP，分成兩路：一路進入LSTM網路進行序列化學習，一路進入進入DSSM網路進行向量對齊。

LSTM網路：我們將搭配的構成看成一個時序過程，每件搭配物品的產生為一個時序步驟。從第一件商品開始，每一件新產生的商品需要和之前的所有商品有相關性。LSTM網路天然的時序關係使之成為可能。LSTM是RNN（Recurrent Neural Network）的一種衍生，它增加了功能門，能更好地捕捉長期依賴。令S表示一套搭配，是第t個商品的CNN特徵表示，則表示一個搭配序列。根據最大似然估計原理，我們期望最大化：

DSSM網路：我們希望可搭配的商品在向量空間上具有更接近的距離，於是參考了DSSM網路的方法。我們從線上日誌和優質搭配兩方面獲取正向樣本，即收集日誌里點擊率高的搭配和達人高質量的搭配樣例，拆成pair對，作為DSSM網路的正向樣本；同時將線上點擊率低的搭配作為負向樣本。

從圖中看出，當一個（或多個）商品組合經過MLP之後，我們先拿到所有商品在進入LSTM之前的向量表示。當LSTM每一步產出商品X時，我們將X也經過一個MLP變換，和每個進入LSTM之前的其他商品進行距離計算，其他商品的正樣本樣例表示為，負樣本樣例表示為。我們希望正向樣本之間的距離小，負向樣本之間的距離大，因此loss表示為：

其中，sim函數採用的是cosine相似度，θ表示參數，目標是最大化Δ。在GPU上，我們用mini-batch SGD來優化θ。

2.1.4 模型二：基於DAN的無序化搭配生產

我們在LSTM模型一的基礎上完成了第一版的投放，效果還是不錯的。在後續的研究中，我們發現了一個更好的模塊：DAN，在以上的框架圖中，它僅僅將LSTM模塊做了替換，其他部分保持不變。我們看到了更低的loss和更好的輸出結果。

DAN的核心在於，它將搭配看成一個組合模式，而不是序列模式。在日常生活中，我們會給上衣搭配褲子，也會給褲子搭配上衣，因此在訓練LSTM網路的時候，我們其實需要構造兩條不同順序的訓練數據：上衣+褲子，褲子+上衣。而在DAN網路中，上衣和褲子是無序列差別的輸入，它們以組合的形態輸入網路中。

如下圖所示，同一套搭配的訓練數據在經過CNN和side-information embedding之後，輸入到DAN網路。首先經過非線性變化，變化後的向量進入池化層。我們嘗試了sum-pooling和max-pooling，發現sum-pooling有更好的結果。

DAN網路在訓練的過程中，獲得了比LSTM更低的loss。且在訓練數據構造中，不再需要考慮全排列，而只需要組合數據就夠了。訓練數據的減少大大縮減了訓練時間，使得周期性迭代模型成為可能。

2.1.5 基於context graph的預測過程

怎樣稱為一套搭配？運營往往有不同的定義。女裝的運營可能認為，上衣+下衣+鞋是一套完整搭配，裙裝+配飾+包是一套完整搭配，而連衣裙和牛仔褲是一定不能同時出現的。又或者，家居的運營希望，一個卧室的場景里需要有床、床頭櫃、燈具、壁畫，缺了其中一個都不是一個合格的卧室搭配。實際上線過程中，運營往往還有場景氛圍的需求，對於風格、季節等等有額外的限制。如何將運營的訴求傳遞給搭配演算法，我們設計了context graph來解決這個問題。

context graph是結構化的運營規約，包括類目搭配的約束、風格的約束、季節的約束，等等。在搭配預測階段，所有商品池的商品和它們的side-information經過Embedding、Stacking和全連接之後，存入商品池（item pool）。以DAN網路為例，當一個活動發起請求時，作為觸發的商品經過DAN網路，如果不考慮約束，則我們會將MLP的輸出結果到商品池中去做向量檢索（sim search），獲取下一個商品。如果考慮約束，則根據context graph的規約，先在向量檢索的基礎上做一層過濾，僅讓滿足運營規約的商品作為預測結果的候選集，再在候選集里挑出TopK。在每產出一個搭配商品之後，演算法重新計算當前滿足的搭配約束情況，推動下一個商品的產生及圈定新的候選集。

我們將context graph打包到模型里，因此搭配的預測過程是完全實時的。context graph保證了成品率，即每一套產出的搭配都符合運營的輸入條件，降低了人工篩選的成本。

2.2 文本演算法

2.2.1 相關工作

隨著深度網路的發展，文本應用在近兩年有著非常迅速的落地。在機器翻譯、閱讀理解、摘要生成等文本工作中，sequence-to-sequence的框架被廣泛應用，為不同應用目的而設計的attention網路也蓬勃發展。

我們將文案生成看成一個摘要生成問題，原始輸入語料可以是商品原始標題、商品其他信息等等，而文案需要在原始語料中抽取出關鍵信息，進行總結甚至拓展描述。Pointer-Generator網路（PGN）[6]做到了這一點。它本質上是一個encoder-decoder加attention的混合模型，但通過一個平衡參數，使得模型既可以從原始語料中抽取文字（pointing），也可以生成原始語料中沒有的新詞（generator）。[7]同樣採用了encoder-decode加attention的基本框架，但是通過蒙特卡洛採樣縮小了目標詞庫，提升效果的同時也加快了預測速度。

在我們的場景下，除了從原始語料中生成，運營往往還會增加一些額外需求。比如運營希望文案的描述中有偏向性，突出風格，突出顏色，或者突出利益點，我們稱為搭配tag。因此這部分我們也作為輸入，加入到attention網路中。

2.2.2 準備工作

數據：我們用達人搭配的幾十萬搭配描述作為訓練數據。訓練數據的輸入為商品的標題、搭配tag，訓練數據的輸出為達人撰寫的標題。我們將詞作為基本單位。

2.2.3 CPGN模型

在PGN的基礎上，我們加入了運營輸入信息，使得文案、商品、運營要求三者之間建立強關聯，因此新方法命名為CPGN，其演算法框架如下：

整個框架由encoder-decoder構成。自底向上看，首先，我們對原始語料和運營輸入分別做encode，其中原始語料逐詞進入單層、雙向LSTM網路，隱層向量表示為；運營輸入可以是連續的一句話，也可以是關鍵詞，若為前者，則仍然用LSTM處理，若為後者，則直接對關鍵詞做embedding，用表示。以i表示第i個輸入，以t表示decode的步數，則attention的分布和context向量表示如下：

其中，η是一個以tanh為激活函數的多層MLP，表示第t步decoder的狀態。attention分布可以看作是decode產生過程中，對encode每個源詞的重視概率。和是對attention分布的帶權求和，是當前步下從源語句獲得的信息的表達。在此基礎上，我們得到下一個詞在整個詞典上的概率分布：

其中，g為兩層全連接。這樣我們就得到了generate部分的概率。如何平衡pointing和generator呢？我們設計一個參數，它是一個概率軟開關，和當前decoder的狀態、context向量、以及decoder輸入相關。我們既可以在詞典中generate下一個詞，也可以利用attention的權重在輸入中copy下一個詞。假設從中得到詞典中每個詞的預測概率為，則：

其中σ是sigmoid函數。現在的P(w)不但包括整個詞典，還包括某些在輸入中出現、但不在詞典中的詞，因此緩解了OOV的問題。在訓練階段，假設第t個目標詞為，則loss表示為：

最後，我們加入了coverage演算法解決重複詞問題。在每一步decode中，我們對之前步的所有attention分布求和，記為。表現了當前為止，原輸入中的詞被attention體現出來的覆蓋程度，它被帶入到中進行計算，因此當前步的decoder將被通知並避免重複之前出現過的詞。此外，loss的計算中也引入covloss，它是和的最小值之和。coverage演算法不僅作用在原始語料上，也作用於運營輸入上。由於我們的演算法直接投放到線上，在做過演算法的去重之後，我們在工程上最後還加了一層正則匹配，確保萬無一失。

三、滴搭工程平台

3.1 演算法平台XTF

為了能讓整個滴搭平台真正面向運營，我們需要一個穩定、能支持快速迭代和實時計算的機器學習平台來支撐我們訓練模型以及在線輸出。為此，我們參與了工程團隊的共建工作——基於Porsche blink的分散式Tensorflow訓練及在線打分平台，我們稱該平台為XTensorflow，簡稱XTF。在這個平台上，滴搭涉及到的LSTM模型、CNN模型、CPGN模型、DAN模型天級別地訓練與更新，快速響應訓練數據的變化；在線預測過程中，共建了CNN的實時打分、context graph的實時查詢、DSSM的實時檢索，使得業務的實時響應成為可能。

3.2 智能排版平台

演算法生成的搭配最終投放給用戶，圖片的美觀非常重要。這裡面急需解決多商品的排版問題，包括大小比例、順序、頁面留白等等。鹿班團隊在合圖工程上有著多年的經驗，我們共建了搭配商品的排版工作，完成了成圖的最後一步。

滴搭布局演算法支持設計師上傳模板，也可以根據積累的模板進行合圖匹配。

四、滴搭業務實例

滴搭的圖文演算法本身是很底層且通用的，它可以應用於所有擁有多商品邏輯關係的行業，可以投放於所有有場景定義的業務中。我們在日常業務和大促業務中都有過很多次的合作與嘗試，接下來將重點介紹幾個。

4.1 iFashion搭配

iFashion是一個以搭配為主要心智的場景。無論是在內容質量本身，還是視覺呈現，iFashion都很好地承接了圖文演算法的產出。我們周期性地為iFashion的選品產出圖搭配和文字描述，極大地補充了原僅有達人搭配的池子。演算法搭配和達人搭配在瀑布流中混排，個性化地推薦給用戶。演算法搭配參與生產的優勢包括成本低、成品效果好、轉化數據高等等。

4.2 手淘首焦

手淘首焦是一個強運營需求區塊，一張焦點圖背後是一個活動頁，展現內容包括該活動下的商品圖片以及文案。我們的推薦演算法會給用戶千人千面的展現，即在個性化投放中，我們會給每個用戶投放他感興趣活動下的感興趣內容。在圖文演算法產生之前，我們僅僅對活動下的單個商品做了個性化，而且文案還是固定不變的。

我們嘗試了服飾行業的多商品搭配，搭配的組合態使得首焦的圖片展示更加豐富，不再拘泥於單商品的模式。

我們也嘗試了多行業的文案生產。以下圖為例，傳統的做法，運營輸入固定文案，包括主文案：運動健身狂歡購，副文案：大牌精選好貨鉅惠，以及利益點：搶大額券。固定文案千篇一律，很容易被忽視。在我們的模型中，原始語料是商品標題、描述、屬性等等（該例中，是瑜伽磚頭的相關信息），運營輸入的是文案詞和利益點（該例中，運營輸入了精選好貨、大牌、狂歡購等等關鍵詞）。最後產出的智能文案，主文案：瑜伽磚頭精選好貨（分別從商品標題和運營輸入中抽詞），副文案：大牌鉅惠滿就減（從運營輸入中抽詞，並衍生出了「滿就減」）。由於我們產出的文案能夠和商品、活動一一對應，因此文案上也是千人千面的，不但描述了用戶感興趣的這個商品，還突出了活動的特點，使得個性化的效率得到了提升。

在首焦的圖文生產上，我們在CTR和UCTR上都拿到了超過兩位數的提升。

4.3 有好貨

有好貨是首頁流量主力頻道，其主打的「好貨」心智深入人心。目前的版本中，由於排版的限制，達人生產的標題有的太長，顯示不全，有的由於截斷，表述不清，非常影響用戶對商品的信息讀取。我們和有好貨合作，利用文案演算法，對標題進行重新抽取，在限制長度的情況下提取重點信息，幫助用戶更好地決策。

五、未來工作

我們的演算法工作、工程工作是緊跟著業務發展的，所以很多的想法也是深入了解業務之後思考建設起來的。接下來也有一些想要嘗試的方向：

首先，我們希望建設一個端到端的演算法模型。現在由於圖像網路比較重，模型中還是用CNN進行預處理，再到LSTM或者DAN網路中產出的。我們希望以後圖像的處理網路能夠融入到整體框架中。

其次，我們希望能夠在個性化上做更多的努力，配合產出更多的UGC內容玩法。

原文鏈接

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎

本文來自雲棲社區合作夥伴「阿里技術」，如需轉載請聯繫原作者。