魯班，視覺生成引擎的應用

04-30

摘要： 演講嘉賓簡介：謝宣松（星瞳），謝宣松（星瞳），阿里巴巴機器智能技術實驗室資深演算法專家，專註於視覺生成、智能醫療、圖像搜索、信息抽取等方面技術研發和落地；阿里巴巴智能設計（魯班）的創始成員和技術負責人，醫療影像智能診斷方向負責人，圖像搜索拍立淘的早期創始成員。

演講嘉賓簡介：謝宣松（星瞳），謝宣松（星瞳），阿里巴巴機器智能技術實驗室資深演算法專家，專註於視覺生成、智能醫療、圖像搜索、信息抽取等方面技術研發和落地；阿里巴巴智能設計（魯班）的創始成員和技術負責人，醫療影像智能診斷方向負責人，圖像搜索拍立淘的早期創始成員。

本次分享主要分為以下幾個部分：

l? 定義、目標和願景

l? 設計行業現狀

l? 使用場景

l? 技術框架和生產流程

l? 關鍵演算法

l? 業務進展

l? 案例展示

l? 魯班（新零售UED、淘寶技術部以及達摩院MIT共創的典型案例）

l? 前景展望

一、定義、目標和願景

視覺生成的定義：可控視覺內容設計和生成，聚焦滿足用戶、場景需求的數字視覺內容製造，包括針對圖像、視頻及圖形的增強、編輯、渲染、生成、評估等視覺內容設計與製作。用技術賦能和改革設計、廣告及數娛行業。

目標：可控視覺內容設計和生成，讓AI做設計，使數字內容製造變得高質、高效、普惠、低成本；

願景：所想，即所見。

視覺生成主要分成三個方向。第一，針對非結構化的圖像，如圖像。第二，針對結構化的圖形。第三，針對序列化的視頻。

二、設計行業現狀

視覺生成較年輕。起初，基本都是通過人工方式完成。小到海報或畢業設計封面的設計這樣的小需求，大到阿里巴巴中海量商家的投放渠道及效果這樣的大型需求都與其相關。從業人員數量龐大，市場與廣告、商家關係緊密，市場容量非常大。

從技術上說，近幾年，大家常提到供給側改革，以前的供給側基本都是通過人或工具來形成圖像、視頻等，但這樣有很大的局限性，包括：

l? 效率低成本高

l? 數據利用率低，比如去年雙十一和今年雙十一由於主題不同，需要全盤重做。

l? 無法在線化，從提出需求到得到結果無法做到實時。

l? 難以上下文相關，設計師不會結合用戶的個性化需求，形成與上下文相關的結果。

而在消費端，對個性化、精準度、實時性有很高的需求。因此，在供給和需求之間還存在差距。在AI行業中，IN的多：識別、理解、搜索。OUT的少：生成、融合還限於學術圈，系統性落地工程、可商用的產品沒有。

因此，「The best way to predict is to create.」。

三、使用場景

視覺生成引擎的使用場景大致可抽象成下圖。以顯式輸入而言，用戶可以輸入標籤需要的風格、色彩、構圖等，或者輸入一個例子，或者進行一些交互的輸入。除顯式輸入之外還可以有隱式輸入，比如人群信息、場景信息、上下文信息等。總的來說，輸入可以是千變萬化的，但通過規範化之後就會減少變化，使得生成過程可控，輸出質量可控。

對視覺生成引擎來說，它要求輸入是規範化的。但在輸入前，可以加入各種交互方式，如自然語言處理，語音識別等，將其轉化成規範化輸入。最後輸出結構化信息或可視成圖。

四、技術框架和生產流程

其技術框架如下圖左側。首先對視覺內容進行結構化理解，如分類、量化、特徵化。其次通過一系列學習、決策變成滿足用戶需求的結構化信息即數據，最後將數據轉化成可視的圖像或視頻。這一框架依賴於大量的現有數據。其核心是一個設計內核。同時，引入效用循環，利用使用後的反饋來不斷迭代和改進系統。

其生產流程分成六個步驟，如下圖右側所示。首先用戶提出需求，將需求特徵化轉變成系統可以理解的結構化信息。其次將信息進行規劃得到草圖。有了粗略的草圖後再將其轉變成相對更精確的圖，然後調整細節，最後通過數據可視化形成最終的圖。當然其中還有很多的trick，以及各部分的優化。

五、關鍵演算法

下面介紹一些關鍵演算法。我們希望基於下圖最左的耐克鞋生成最右的圖。先通過規劃器得到草圖，再通過強化學習獲得相對細緻的結果，再通過對抗學習及渲染演算法得到圖片，再通過評估器進行評估，最後形成業務閉環，其中還會有一些基礎的能力，包含更強的聯合特徵（非普通 CNN特徵）及多維度檢索演算法等。

基本上，處理的第一步是將圖片中的信息結構化，這也是與現有的識別理解技術結合最緊密的地方。其中的難點和重點包括，對圖像中多目標的識別、遮擋和互包含情況如何得到分割的信息等，下圖只是個簡單的示例。

有了結構化信息之後，需要對信息進行量化。可以量化成特徵或量化圖。量化過程中會包含很多信息，比如主題風格、布局配色、元素種類、量化空間等。有了這些信息後可以在主題、種類、風格、視覺特徵大小位置上，量化成各種碼，用相對有限的特徵來表達無限的圖。

下一步是通過用戶的輸入，得到一個相對粗略的結果即草圖。目前主要使用的是深度序列學習。從圖像角度，首先選定一個點的像素顏色再選擇位置，再迭代進行操作，最後形成一張圖。規劃器模擬的就是這個過程。本質上預測過程是一棵樹，當然也可以拆成一條條路徑。為了簡化，可以分成幾步進行，比如空間序列，視覺序列。最後形成量化特徵模型，主要應用的是LSTM模型。它把設計的過程轉化成基於遞歸、循環的過程。

得到草圖後，利用行動器將草圖細化。如果將圖中的每個元素看作一個Agent，那麼它將有若干個可選的行動空間。

假設一張圖中有20個元素，每個元素在視覺上有多種可選的行動空間，由其組合成的可選行動空間非常龐大。我們有很多trick可以解決這一問題，比如在空間上，只允許在有限範圍內進行變動，且行動方向有序，即狀態有序，行動有限。

下一步是如何衡量結果的好壞。圖像的評估相對比較主觀，主要可以從美學和效果兩方面來評估。美學角度可以包括是否對齊、色系搭配是否合理、有無遮擋這些較低級別的判斷標準，以及較高級的，比如風格是否一致，是否切合主題。從效果上，產品投放後是否會在點擊率等方面實現提升。最後將多個指標形成對應權重並形成多個DeepLR聯合模型。