智能設計應用於視頻廣告,從魯班的視覺引擎談起

智能設計應用於視頻廣告,從魯班的視覺引擎談起

來自專欄 人工智慧+設計 修鍊指南

最近雲棲社區更新了一篇星瞳關於魯班視覺引擎的介紹文章。

視覺引擎的目標是可控視覺內容設計和生成,讓 AI 做設計,使數字內容製造變得高質、 高效、普惠、低成本; 終極目標是「所想,即所見」 ,目前主要探索的應用:

圖像設計與生成 視頻編輯與生成 圖形建模與生成

部分內容引自星瞳的ppt:

魯班視覺引擎?

yq.aliyun.com

本文從3個方面談談智能設計與視頻廣告的結合:

1 魯班的圖像設計與生成

2 智能設計局限與突破

2.1 應用設計大數據,「複製」設計

2.2 特定風格下的演算法驅動型設計

2.3 基於圖像的智能排版引擎

2.4 基於pix2pix的生成設計

3 視頻的應用

3.1 數字植入廣告

3.2 Cinemagraph 半自動生成

3.3 Mask R-CNN

1 魯班的圖像設計與生成

魯班目前的圖像設計與生成,主要是 banner 類的圖,核心是素材搭配求得最優組合。把 banner 拆解成背景、主體、裝飾等,檢索,然後組合。按圖層拆解設計圖,結構化設計數據,然後檢索「庫存」,按照輸入的布局組裝檢索到的素材,評估及優化素材組裝後的效果,直至最終生成最優的素材組裝結果。

A 輸入(顯式輸入):

圖片:商品主圖

文案:化妝會場5折起……

風格:運動

構圖:左右

配色:黃綠

大小:1125*352

B 特徵化:

image

text

stylex=sport

layout=LTRI

color=YG

size=3:1

C 規劃:

16*16的特徵圖

D 行動:

256*256

E 調優:

1125*352

F 可視化

2 局限與突破

應用設計大數據,「複製」設計。首先需要準備大量的打好標籤的素材,設計結果取決於素材庫的「庫存」質量。設計過程被簡化為組合素材的過程。所以對應的人類設計師水平是「 P5 」 ?設計是極富創意的過程,除了解決問題,利用設計可以使用的元素,創意性地提出解決方案,是高水平設計的價值所在。所以,魯班也在嘗試像素級生成以及根據主題生成文案,讓 AI 更具有創造力。這方面的探索追求的是設計的從0到1。這裡 mixlab 總結下智能設計目前的實現方式:

2.1 應用設計大數據,「複製」設計

從半結構化的設計圖,例如 psd 文件、sketch 文件等,提取設計數據,包括圖片、文案、布局、色彩,形成設計大數據,然後通過搜索引擎技術,枚舉各種組合,並評分,最後得出最優結果。

2.2 特定風格下的演算法驅動型設計

更像是演算法驅動型的設計,把特定風格圖像設計的設計規則演算法化,直接應用演算法於生成設計。例如 mixlab 近期嘗試過的glitch 風格的字體生成器。

2.3 基於圖像的智能排版引擎

微軟研究院發的一篇論文,專註於雜誌風格封面的版式設計,是基於圖像的 saliceny map 做的自適應布局方案。Mixlab 在去年也專門更新了一篇文章介紹。

2.4 基於pix2pix的生成設計

只要是圖片與圖片之間的轉換,我們都可以嘗試 pix2pix 來生成試試。在《Pix2Pix與人工智慧做設計》這篇文章, mixlab 介紹了 pix2pix 的一些探索應用:

預測影片的下一幀,我們是不是可以把一張圖片變成 GIF 圖;

去除馬賽克,隨意放大 BMP 圖片,再也不擔心精度不夠了;

通過手繪生成名畫,比谷歌的 auto draw 先進了點,當然還有各種通過手繪生成的東西,比如貓、袋子、鞋子、人物肖像畫;

去除圖片的背景,類似於摳圖,也可以採用 pix2pix 的方法進行;

生成配色方案,把配色當成圖片,進行圖片的生成,產生新的配色方案;

從側臉預測正臉,這樣以後只要隨便拍一張照片,都可以在三維空間中實時建模出來;

3 視頻的應用:

另外,基於圖像的視覺引擎,可以升級為數字植入廣告引擎,用於:

3.1 數字植入廣告

Virtual Product Placement

簡稱VPP,又稱「虛擬植入廣告」、「Digital Product Placement」、「DPP」),是指利用虛擬品牌植入(VBI)技術,將虛擬的、原視頻中不存在的品牌符號融入影視中的廣告方式,給觀眾留下印象,以達到營銷目的。

用深度網路檢測植入廣告的大概位置

對位置進行優化精確廣告位

廣告位跟隨鏡頭移動,直至移出畫面

3.2 Cinemagraph 半自動生成

輸入固定鏡頭拍攝的視頻,自動或僅用極少交互生成整體靜止局部運動的可循環視頻。

Cinemagraph 的案例

cinemagraphs.com/

讓我想起了去年mixlab創作了一款基於electron 的 cinemagraph 生成器。實現邏輯,可以參考開源項目:

github.com/yrevar/semi_

核心思想是利用蒙板進行塗抹,把靜態和動態的區域分離開來。

3.3 Mask R-CNN

以上2種應用,如果交由機器完成,都需要識別出圖像里目標對象的邊界,是一個圖像分割問題,目前效果比較好的方案是Mask R-CNN。Mask R-CNN 是一個小巧、靈活的通用對象實例分割框架(object instance segmentation)。它不僅可對圖像中的目標進行檢測,還可以對每一個目標給出一個高質量的分割結果。

Fackbook 開源的:

github.com/facebookrese

Mask R-CNN 用於 gif 自動生成的開源項目:

github.com/burningion/a

綜上,智能設計應用於視頻廣告的技術主要涉及:

視頻廣告=基於 Mask R-CNN 圖像分割 + 圖像設計與生成

*

關於公眾號:

本公眾號定期更新人工智慧&設計&科技內容。談點設計,敲點代碼,偶爾創作點人工智慧實驗產品

*mixlab群友福利:

群里聚集了一批人工智慧、設計、機器人、前端、後端、產品的跨界人才。今天為群里的小夥伴發一則尋人啟示,他的公位於上海,主擅建築機器人控制和設計集成,為地產和建造公司提供機器?建造解決方案。團隊由多位美國、澳洲的海歸博士和跨專業人才組成,天使融資近千萬,前景光明,求賢若渴。

高級前端開發工程師

職責描述

? 主要負責機器人控制平台的前端開發工作

? 能使用各種前端技術構建WebApp

? 熟悉WebGL / ThreeJS 等3D引擎者為佳,對三維圖形技術在網頁中的應用感興趣者優先

? 有建築三維軟體如Rhino,Revit,Sketchup等使用經驗為佳,有U3D開發經驗的加分

? 配合後端工程師,高效得完成項目開發

? 密切配合設計師和產品經理理,保證用戶的優質體驗

? 解決各種瀏覽器的樣式表和JS的兼容問題

職責要求

? 兩年以上工作經驗,熟悉前後端分離的開發模式

? 精通HTML5 / CSS3 / JavaScript,能獨立完成JavaScript的編寫,調試和優化

? 熟悉WebGL / ThreeJS,或有使用其他WebGL引擎的工作經驗者優先考慮

? 熟悉React Native 等一種或多種框架,能設計編寫常見的WebApp為佳

? 擁有良好的代碼習慣,邏輯思維清晰,具有願意挑戰困難的研發精神

? 對前端項目工程管理有一定了解,熟悉Gulp,Webpack等工作流管理以及打包工具

待遇

工資:15 - 25K (有能者面議

簡歷郵箱: hydemeng@roboticplus.com

或者直接聯繫mixlab也行。


推薦閱讀:

英美智能音箱市場將暴增 語音購物成潮流 但中國還有三個限制 | 報告解讀
人工智慧將導致50%的人失業?還有一招你沒想到!
AI人才之洞見
玩轉Jetson TX2 Part4 (TX2 Benchmark)
星際爭霸AI研究相關工具資料整理

TAG:魯班 | 人工智慧 | 設計 |