微軟AI單憑文字就可作畫，誰最先受到衝擊？

02-13

文 | 顏璇

來源 | 智能相對論（aixdlun）

馬雲曾說：「三十年後，《時代》雜誌封面年度最佳CEO說不定是個機器人。」

機器人CEO可能還需等待，但機器人繪畫師已經在路上。

當Google的AI正在塗鴉時，微軟的繪畫AI 已經學會如何畫鳥了。近日,微軟對外宣稱正計劃推出一項新的人工智慧技術——繪圖機器人（drawing bot）。使用者僅需說出想要繪製物體的名稱，機器人便可以進行相關素材的匹配，也就是說，未來可以通過口述的方式進行繪畫，說啥畫啥。

人工智慧系統單純透過文字描述就能夠創作圖像，該技術在文字描述中尋找關鍵字詞，然後再用來創作高畫質的圖像，據悉這個關注重點的技巧讓圖像的畫質較之前提升3倍。

隨著人工智慧時代的到來，藝術與科技的碰撞，越來越頻繁地現身熱門話題榜。AI「看文作畫」的技術展現了具有藝術表現力的潛能，對藝術創作的影響已經可以預見。但微軟的繪畫AI，在撬動智能體想像力方面，意義絕對不只是「藝術助手」所能概括的。

所以，AI口述繪畫這件事，不可小瞧！

什麼是AI口述繪畫

AI口述繪畫，看起來好像是機器接受人類指令給出圖畫，但遠遠不止這麼簡單。智能相對論（微信id：aixdlun）了解到，正如負責研發的Microsoft深度學習技術首席研究員何曉東說的，圖像是人工智慧由零開始，逐像素逐像素創作。他以一幅人工智慧創作的黃色雀鳥圖像做解說，表示人工智慧分析文字後，再透過一項名為生成對抗性網路（GAN，Generative Adversarial Network）的技術將文字轉化成圖像，人工智慧創作的黃色雀鳥並不一定在現實世界存在，只是電腦的一種想像。

GAN通過從高維的分布中採樣，生成模型輸出與訓練樣本類似的新樣本。這就意味著，若生成模型的訓練數據是鳥的圖像集，那麼訓練後得到的模型也能輸出類似於鳥的合成圖片。

研究員稱人工智慧系統能夠創作出任何類型的形象，例如飄浮的雙層巴士、放牧中的牲畜等，而且在文字中欠缺的一些細節，系統會在影像中自行補完。

GAN結構用到了兩個神經網路：一個是生成器，它試圖基於輸入的數據生成更像真實數據的結果；另一個是判別器，它的目的在於正確分辨哪些是真實的數據。簡單地來理解就是，生成器總是在試圖「騙過」判別器。

生成器必須反覆用隨機輸入的噪音數據合成有意義的內容，直到判別器無法區分合成內容的真偽。這套框架正在被擴展應用到許多數據模式和任務中。如模擬時間序列的特徵；超解析度圖像；從二維圖像復原三維結構；小規模標註數據集的泛化;預測視頻的下一幀；生成自然語言的對話內容；藝術風格遷移；語音和音樂的合成。

值得一提的是，微軟研究人員在此基礎上創建了他們稱之為注意力生成式對抗網路或AttnGAN的技術，這個AttnGAN生成的圖像的質量比之前最好的GAN生成的圖像質量提高了近三倍。而這種仿人類注意力的生成式對抗網路對AI界的影響十分重大，這標誌著在類人類智能的發展實現了質的突破。

AI據文繪畫，或許漫畫領域最受衝擊

「看文作畫」的AI在現實生活中又會發揮什麼樣的用處呢？

讓我們來想像一下，未來，可能會發生這樣的對話——

「Drawing bot，請你為我畫一個花園。」

接著，一座美麗的花園躍然於紙上，花園中有各色的花朵，飛舞的蝴蝶，甚至有兩個小孩在其中嬉戲。

從文本到圖像的生成技術可以找到很多實際應用，它既可以作為漫畫家和室內設計師的素描助理，或者作為語音美化照片的工具。如果有更多的計算能力，這項技術能夠根據電影劇本生成動畫電影，進行一些重複且繁瑣的手工繪畫，比如動畫背景中的一棵樹、一顆草，進而改善動畫電影製片人的工作。

人工智慧可以模仿披頭士寫歌，當然也可以模仿各種名家作畫。試想一下，一個沒有任何繪畫基礎的編劇，卻能在網上發布自己漫畫劇作，其作品還頗有當代某著名漫畫家的畫風。在動漫方面，如果微軟的這款繪圖智能大力發展，完全可以大大降低創作門檻。當然，這種另類的「漫畫創作」也可能面臨素材版權的問題。

目前來說，微軟這個繪圖AI還是有比較大的提升空間，而在不斷改進後，在將來，它可能會對漫畫領域產生極大的衝擊，甚至於對室內空間設計行業也會產生影響。當然，其主要作用還是節省畫家和設計家的人力和時間，而令人期待的是，未來的電視上極有可能會出現由AI自導自演的動畫片。

想像力——讓AI區別於死物

除了知道繪畫AI可以充當更好的人類幫手之外，我們為什麼要關注AI繪畫這件事？智能相對論（微信id：aixdlun）認為，其中關鍵，或許是我們應該知道「想像力」在AI世界中的重要程度和期待指數。

想像力是人在已有形象的基礎上，在頭腦中創造出新形象的能力。比如當我說起牛奶，你想到的圖景可能是杯子中盛著白色的牛奶，這個想像是基於你生活中的經驗所得到的，也就是說，想像一般是在掌握一定的知識面的基礎上完成的。

繪畫機器人能夠想像出標題中沒有包含的細節，這是因為，它有一點自己的常識和想像力，當然，這要依賴於它大量的訓練數據。

在鳥的例子中，機器人畫的鳥通常是站在枝頭上的，然而文本內容中其實並沒有提到這一細節。這是因為資料庫中提供給它的圖像經常出現類似的內容。這意味著，AI在掌握了一定的知識面後也能將其利用起來形成自己的想像。

目前，AI只是在小的細節中進行補充，而下一步，應該是試圖在更自主地描繪圖像上完成突破。如果這個突破到來，意味著AI模型在「想像力」這一特質上得到了進一步升級。這個能讓AI區別於死物的能力，終於拉開了表演的大幕。

AI先天具備的是運算能力，從而進行仿人類智慧的智能模擬，第二步就是模仿人類的感知，比如機器識別、語音識別、語義分析等等，都是在做這件事。而第三步，就是讓AI 有自己的「想像」和「思考」。

假如單純的感知卻無法自主輸出，那麼AI無非是更靈活的感測器而已。

從這個邏輯上來看，微軟AI「看文作畫」絕不僅僅是一個商業應用的技術加持，也不僅僅是藝術與科技的碰撞，更重要的應該是開啟了AI世界裡使AI具有想像力的新紀元。

微軟的這隻鳥，更深遠的意義在於，我們或許距離擺離線器人純粹的「運算」更近了一步。

智能相對論（微信id:aixdlun）：深挖人工智慧這口井，評出鹹淡，講出黑白，道出深淺。重點關注領域：AI+醫療、機器人、智能駕駛、AI+硬體、物聯網、AI+金融、AI+安全、AR/VR、開發者以及背後的晶元、演算法、人機交互等。