微軟的研究人員使用GANs從字幕生成圖像和故事板

時間：2020-05-06 12:02 作者：王悅明

由于微軟研究院、奧爾巴尼大學和JD AI研究院的人才，能夠根據描述繪制圖像的人工智能已經成為現實。在一篇文章(“Object-driven Text-to-Image合成通過對抗訓練”)計劃在IEEE計算機學會計算機視覺與模式識別會議在長灘(CVPR 2019)會議上,加州團隊提出了一個機器學習框架——ObjGAN能理解標題,素描一個布局,根據確切的措辭和完善細節。

這篇論文的合著者聲稱，他們的方法與之前的先進技術相比，在圖像質量上有了“顯著提高”。他們寫道:“ur生成器能夠利用細粒度的字(和)對象級信息來逐步細化合成圖像。”“大量的實驗證明了ObjGAN在復雜場景的文本-圖像生成中的有效性和泛化能力。”

該團隊指出，在開發文本到圖像的人工智能時，一個艱巨的挑戰是讓系統理解對象類型，以及讓它理解場景中多個對象之間的關系。以前的方法使用圖像-標題對，僅為單個對象提供粗粒度的信號，即使是性能最好的模型也難以生成包含多個對象的語義有意義的照片。

為了克服這些障礙，研究人員向ObjGAN注入了生成對抗網絡(GAN)，這是一個由生成樣本的生成器和試圖區分生成的樣本和真實樣本的鑒別器組成的兩部分神經網絡隨著時間的推移，人工智能系統內化了對象的外觀，并學會了從語料庫中同時出現的模式中綜合它們的布局，最終以預先生成的布局為條件生成圖像。

為了在圖像生成中達到人類水平的表現，該團隊在ObjGAN中模擬了藝術家繪制和細化復雜場景的方式。該系統將輸入文本分解成單獨的單詞，并將這些單詞與圖像中的特定對象進行匹配，它利用兩個鑒別器——一個按對象分類的鑒別器和一個按片段分類的鑒別器——來判斷工作是否真實，是否與句子描述一致。

結果并不完美——ObjGAN偶爾會吐出邏輯上不一致的樣本，就像一列火車被困在草坡上，標題是“一列客運列車在鐵軌上奔馳”——但考慮到它們是由整塊布料合成的，它們仍然令人印象深刻。

研究者在微軟,微軟365年動力學研究,杜克大學,騰訊的人工智能研究,和卡內基梅隆大學圖像生成進一步在一個單獨的紙(“StoryGAN:故事的順序條件GAN可視化”)來描述一個系統- StoryGAN從multi-sentence段落生成comic-like故事板的能力。StoryGAN類似地構建在一個GAN上，但它獨特地包含一個上下文編碼器，可以動態地跟蹤故事流，并在故事和圖像級別上有兩個鑒別器，以增強生成的序列的質量和一致性。

該團隊指出，StoryGAN可以擴展為交互式圖像編輯，其中可以根據文本指令順序編輯輸入圖像。

微軟的研究人員使用GANs從字幕生成圖像和故事板

相關話題

熱門推薦

關注排行榜

編輯精選