智能設計應用於視頻廣告,從魯班的視覺引擎談起
來自專欄 人工智慧+設計 修鍊指南
最近雲棲社區更新了一篇星瞳關於魯班視覺引擎的介紹文章。
視覺引擎的目標是可控視覺內容設計和生成,讓 AI 做設計,使數字內容製造變得高質、 高效、普惠、低成本; 終極目標是「所想,即所見」 ,目前主要探索的應用:
圖像設計與生成 視頻編輯與生成 圖形建模與生成
部分內容引自星瞳的ppt:
魯班視覺引擎本文從3個方面談談智能設計與視頻廣告的結合:
1 魯班的圖像設計與生成
2 智能設計局限與突破
2.1 應用設計大數據,「複製」設計
2.2 特定風格下的演算法驅動型設計
2.3 基於圖像的智能排版引擎
2.4 基於pix2pix的生成設計
3 視頻的應用
3.1 數字植入廣告
3.2 Cinemagraph 半自動生成
3.3 Mask R-CNN
1 魯班的圖像設計與生成
魯班目前的圖像設計與生成,主要是 banner 類的圖,核心是素材搭配求得最優組合。把 banner 拆解成背景、主體、裝飾等,檢索,然後組合。按圖層拆解設計圖,結構化設計數據,然後檢索「庫存」,按照輸入的布局組裝檢索到的素材,評估及優化素材組裝後的效果,直至最終生成最優的素材組裝結果。
A 輸入(顯式輸入):
圖片:商品主圖
文案:化妝會場5折起……
風格:運動
構圖:左右
配色:黃綠
大小:1125*352
B 特徵化:
image
text
stylex=sport
layout=LTRI
color=YG
size=3:1
C 規劃:
16*16的特徵圖
D 行動:
256*256
E 調優:
1125*352
F 可視化
2 局限與突破
應用設計大數據,「複製」設計。首先需要準備大量的打好標籤的素材,設計結果取決於素材庫的「庫存」質量。設計過程被簡化為組合素材的過程。所以對應的人類設計師水平是「 P5 」 ?設計是極富創意的過程,除了解決問題,利用設計可以使用的元素,創意性地提出解決方案,是高水平設計的價值所在。所以,魯班也在嘗試像素級生成以及根據主題生成文案,讓 AI 更具有創造力。這方面的探索追求的是設計的從0到1。這裡 mixlab 總結下智能設計目前的實現方式:
2.1 應用設計大數據,「複製」設計
從半結構化的設計圖,例如 psd 文件、sketch 文件等,提取設計數據,包括圖片、文案、布局、色彩,形成設計大數據,然後通過搜索引擎技術,枚舉各種組合,並評分,最後得出最優結果。
2.2 特定風格下的演算法驅動型設計
更像是演算法驅動型的設計,把特定風格圖像設計的設計規則演算法化,直接應用演算法於生成設計。例如 mixlab 近期嘗試過的glitch 風格的字體生成器。
2.3 基於圖像的智能排版引擎
微軟研究院發的一篇論文,專註於雜誌風格封面的版式設計,是基於圖像的 saliceny map 做的自適應布局方案。Mixlab 在去年也專門更新了一篇文章介紹。
2.4 基於pix2pix的生成設計
只要是圖片與圖片之間的轉換,我們都可以嘗試 pix2pix 來生成試試。在《Pix2Pix與人工智慧做設計》這篇文章, mixlab 介紹了 pix2pix 的一些探索應用:
預測影片的下一幀,我們是不是可以把一張圖片變成 GIF 圖;
去除馬賽克,隨意放大 BMP 圖片,再也不擔心精度不夠了;
通過手繪生成名畫,比谷歌的 auto draw 先進了點,當然還有各種通過手繪生成的東西,比如貓、袋子、鞋子、人物肖像畫;去除圖片的背景,類似於摳圖,也可以採用 pix2pix 的方法進行;生成配色方案,把配色當成圖片,進行圖片的生成,產生新的配色方案;從側臉預測正臉,這樣以後只要隨便拍一張照片,都可以在三維空間中實時建模出來;
3 視頻的應用:
另外,基於圖像的視覺引擎,可以升級為數字植入廣告引擎,用於:
3.1 數字植入廣告
Virtual Product Placement
簡稱VPP,又稱「虛擬植入廣告」、「Digital Product Placement」、「DPP」),是指利用虛擬品牌植入(VBI)技術,將虛擬的、原視頻中不存在的品牌符號融入影視中的廣告方式,給觀眾留下印象,以達到營銷目的。
用深度網路檢測植入廣告的大概位置
對位置進行優化精確廣告位廣告位跟隨鏡頭移動,直至移出畫面
3.2 Cinemagraph 半自動生成
輸入固定鏡頭拍攝的視頻,自動或僅用極少交互生成整體靜止局部運動的可循環視頻。
Cinemagraph 的案例
http://cinemagraphs.com/
讓我想起了去年mixlab創作了一款基於electron 的 cinemagraph 生成器。實現邏輯,可以參考開源項目:
https://github.com/yrevar/semi_automated_cinemagraph
核心思想是利用蒙板進行塗抹,把靜態和動態的區域分離開來。
3.3 Mask R-CNN
以上2種應用,如果交由機器完成,都需要識別出圖像里目標對象的邊界,是一個圖像分割問題,目前效果比較好的方案是Mask R-CNN。Mask R-CNN 是一個小巧、靈活的通用對象實例分割框架(object instance segmentation)。它不僅可對圖像中的目標進行檢測,還可以對每一個目標給出一個高質量的分割結果。
Fackbook 開源的:
https://github.com/facebookresearch/Detectron
Mask R-CNN 用於 gif 自動生成的開源項目:
https://github.com/burningion/automatic-gifs
綜上,智能設計應用於視頻廣告的技術主要涉及:
視頻廣告=基於 Mask R-CNN 圖像分割 + 圖像設計與生成
*
關於公眾號:
本公眾號定期更新人工智慧&設計&科技內容。談點設計,敲點代碼,偶爾創作點人工智慧實驗產品。
*mixlab群友福利:
群里聚集了一批人工智慧、設計、機器人、前端、後端、產品的跨界人才。今天為群里的小夥伴發一則尋人啟示,他的公司位於上海,主擅建築機器人控制和設計集成,為地產和建造公司提供機器?建造解決方案。團隊由多位美國、澳洲的海歸博士和跨專業人才組成,天使融資近千萬,前景光明,求賢若渴。
高級前端開發工程師
職責描述
? 主要負責機器人控制平台的前端開發工作
? 能使用各種前端技術構建WebApp
? 熟悉WebGL / ThreeJS 等3D引擎者為佳,對三維圖形技術在網頁中的應用感興趣者優先
? 有建築三維軟體如Rhino,Revit,Sketchup等使用經驗為佳,有U3D開發經驗的加分
? 配合後端工程師,高效得完成項目開發
? 密切配合設計師和產品經理理,保證用戶的優質體驗
? 解決各種瀏覽器的樣式表和JS的兼容問題
職責要求
? 兩年以上工作經驗,熟悉前後端分離的開發模式
? 精通HTML5 / CSS3 / JavaScript,能獨立完成JavaScript的編寫,調試和優化
? 熟悉WebGL / ThreeJS,或有使用其他WebGL引擎的工作經驗者優先考慮
? 熟悉React Native 等一種或多種框架,能設計編寫常見的WebApp為佳
? 擁有良好的代碼習慣,邏輯思維清晰,具有願意挑戰困難的研發精神
? 對前端項目工程管理有一定了解,熟悉Gulp,Webpack等工作流管理以及打包工具
待遇
工資:15 - 25K (有能者面議)
簡歷郵箱: hydemeng@roboticplus.com
或者直接聯繫mixlab也行。
推薦閱讀:
※英美智能音箱市場將暴增 語音購物成潮流 但中國還有三個限制 | 報告解讀
※人工智慧將導致50%的人失業?還有一招你沒想到!
※AI人才之洞見
※玩轉Jetson TX2 Part4 (TX2 Benchmark)
※星際爭霸AI研究相關工具資料整理