智能設計應用於視頻廣告，從魯班的視覺引擎談起

05-22

來自專欄人工智慧+設計修鍊指南

最近雲棲社區更新了一篇星瞳關於魯班視覺引擎的介紹文章。

視覺引擎的目標是可控視覺內容設計和生成，讓 AI 做設計，使數字內容製造變得高質、高效、普惠、低成本; 終極目標是「所想，即所見」，目前主要探索的應用：
圖像設計與生成 視頻編輯與生成 圖形建模與生成

部分內容引自星瞳的ppt：

魯班視覺引擎?

yq.aliyun.com

本文從3個方面談談智能設計與視頻廣告的結合：

1 魯班的圖像設計與生成

2 智能設計局限與突破

2.1 應用設計大數據，「複製」設計

2.2 特定風格下的演算法驅動型設計

2.3 基於圖像的智能排版引擎

2.4 基於pix2pix的生成設計

3 視頻的應用

3.1 數字植入廣告

3.2 Cinemagraph 半自動生成

3.3 Mask R-CNN

1 魯班的圖像設計與生成

魯班目前的圖像設計與生成，主要是 banner 類的圖，核心是素材搭配求得最優組合。把 banner 拆解成背景、主體、裝飾等，檢索，然後組合。按圖層拆解設計圖，結構化設計數據，然後檢索「庫存」，按照輸入的布局組裝檢索到的素材，評估及優化素材組裝後的效果，直至最終生成最優的素材組裝結果。

A 輸入（顯式輸入）：

圖片：商品主圖

文案：化妝會場5折起……

風格：運動

構圖：左右

配色：黃綠

大小：1125*352

B 特徵化：

image

text

stylex=sport

layout=LTRI

color=YG

size=3:1

C 規劃：

16*16的特徵圖

D 行動：

256*256

E 調優：

1125*352

F 可視化

2 局限與突破

應用設計大數據，「複製」設計。首先需要準備大量的打好標籤的素材，設計結果取決於素材庫的「庫存」質量。設計過程被簡化為組合素材的過程。所以對應的人類設計師水平是「 P5 」？設計是極富創意的過程，除了解決問題，利用設計可以使用的元素，創意性地提出解決方案，是高水平設計的價值所在。所以，魯班也在嘗試像素級生成以及根據主題生成文案，讓 AI 更具有創造力。這方面的探索追求的是設計的從0到1。這裡 mixlab 總結下智能設計目前的實現方式：

2.1 應用設計大數據，「複製」設計

從半結構化的設計圖，例如 psd 文件、sketch 文件等，提取設計數據，包括圖片、文案、布局、色彩，形成設計大數據，然後通過搜索引擎技術，枚舉各種組合，並評分，最後得出最優結果。

2.2 特定風格下的演算法驅動型設計

更像是演算法驅動型的設計，把特定風格圖像設計的設計規則演算法化，直接應用演算法於生成設計。例如 mixlab 近期嘗試過的glitch 風格的字體生成器。

2.3 基於圖像的智能排版引擎

微軟研究院發的一篇論文，專註於雜誌風格封面的版式設計，是基於圖像的 saliceny map 做的自適應布局方案。Mixlab 在去年也專門更新了一篇文章介紹。

2.4 基於pix2pix的生成設計

只要是圖片與圖片之間的轉換，我們都可以嘗試 pix2pix 來生成試試。在《Pix2Pix與人工智慧做設計》這篇文章， mixlab 介紹了 pix2pix 的一些探索應用：

預測影片的下一幀，我們是不是可以把一張圖片變成 GIF 圖；

去除馬賽克，隨意放大 BMP 圖片，再也不擔心精度不夠了；
通過手繪生成名畫，比谷歌的 auto draw 先進了點，當然還有各種通過手繪生成的東西，比如貓、袋子、鞋子、人物肖像畫；
去除圖片的背景，類似於摳圖，也可以採用 pix2pix 的方法進行；
生成配色方案，把配色當成圖片，進行圖片的生成，產生新的配色方案；
從側臉預測正臉，這樣以後只要隨便拍一張照片，都可以在三維空間中實時建模出來；

3 視頻的應用：

另外，基於圖像的視覺引擎，可以升級為數字植入廣告引擎，用於：

3.1 數字植入廣告

Virtual Product Placement

簡稱VPP，又稱「虛擬植入廣告」、「Digital Product Placement」、「DPP」)，是指利用虛擬品牌植入（VBI）技術，將虛擬的、原視頻中不存在的品牌符號融入影視中的廣告方式，給觀眾留下印象，以達到營銷目的。

用深度網路檢測植入廣告的大概位置
對位置進行優化精確廣告位

廣告位跟隨鏡頭移動，直至移出畫面

3.2 Cinemagraph 半自動生成

輸入固定鏡頭拍攝的視頻，自動或僅用極少交互生成整體靜止局部運動的可循環視頻。

Cinemagraph 的案例

http://cinemagraphs.com/

讓我想起了去年mixlab創作了一款基於electron 的 cinemagraph 生成器。實現邏輯，可以參考開源項目：

https://github.com/yrevar/semi_automated_cinemagraph

核心思想是利用蒙板進行塗抹，把靜態和動態的區域分離開來。

3.3 Mask R-CNN

以上2種應用，如果交由機器完成，都需要識別出圖像里目標對象的邊界，是一個圖像分割問題，目前效果比較好的方案是Mask R-CNN。Mask R-CNN 是一個小巧、靈活的通用對象實例分割框架（object instance segmentation）。它不僅可對圖像中的目標進行檢測，還可以對每一個目標給出一個高質量的分割結果。

Fackbook 開源的：

https://github.com/facebookresearch/Detectron

Mask R-CNN 用於 gif 自動生成的開源項目：

https://github.com/burningion/automatic-gifs

綜上，智能設計應用於視頻廣告的技術主要涉及：

視頻廣告=基於 Mask R-CNN 圖像分割 + 圖像設計與生成

關於公眾號：

本公眾號定期更新人工智慧&設計&科技內容。談點設計，敲點代碼，偶爾創作點人工智慧實驗產品。

*mixlab群友福利：

群里聚集了一批人工智慧、設計、機器人、前端、後端、產品的跨界人才。今天為群里的小夥伴發一則尋人啟示，他的公司位於上海，主擅建築機器人控制和設計集成，為地產和建造公司提供機器?建造解決方案。團隊由多位美國、澳洲的海歸博士和跨專業人才組成，天使融資近千萬，前景光明，求賢若渴。

高級前端開發工程師

職責描述

? 主要負責機器人控制平台的前端開發工作

? 能使用各種前端技術構建WebApp

? 熟悉WebGL / ThreeJS 等3D引擎者為佳，對三維圖形技術在網頁中的應用感興趣者優先

? 有建築三維軟體如Rhino，Revit，Sketchup等使用經驗為佳，有U3D開發經驗的加分

? 配合後端工程師，高效得完成項目開發

? 密切配合設計師和產品經理理，保證用戶的優質體驗

? 解決各種瀏覽器的樣式表和JS的兼容問題

職責要求

? 兩年以上工作經驗，熟悉前後端分離的開發模式

? 精通HTML5 / CSS3 / JavaScript，能獨立完成JavaScript的編寫，調試和優化

? 熟悉WebGL / ThreeJS，或有使用其他WebGL引擎的工作經驗者優先考慮

? 熟悉React Native 等一種或多種框架，能設計編寫常見的WebApp為佳

? 擁有良好的代碼習慣，邏輯思維清晰，具有願意挑戰困難的研發精神

? 對前端項目工程管理有一定了解，熟悉Gulp，Webpack等工作流管理以及打包工具

待遇

工資：15 - 25K (有能者面議）

簡歷郵箱: hydemeng@roboticplus.com

或者直接聯繫mixlab也行。