制作一個vr視頻多少錢（這個）

時間：2022-10-11 14:45 作者：劉陽遠

蕭簫發自凹非寺量子位|公眾號QbitAI一周不到，AI畫師又“進階”了，還是一個大跨步——直接1句話生成視頻的那種。輸入“一個下午在海灘上奔跑的女人”，立刻就蹦出一個4秒32幀的小片段：又或是輸入“一顆燃燒的心”，就能看見一只被火焰包裹的心

蕭簫發自凹非寺量子位 | 公眾號 QbitAI

一周不到，AI畫師又“進階”了，還是一個大跨步——

直接1句話生成視頻的那種。

輸入“一個下午在海灘上奔跑的女人”，立刻就蹦出一個4秒32幀的小片段：

制作一個vr視頻多少錢（這個）

又或是輸入“一顆燃燒的心”，就能看見一只被火焰包裹的心：

這個最新的文本-視頻生成AI，是清華&智源研究院出品的模型CogVideo。

Demo剛放到網上就火了起來，有網友已經急著要論文了：

CogVideo“一脈相承”于文本-圖像生成模型CogView2，這個系列的AI模型只支持中文輸入，外國朋友們想玩還得借助谷歌翻譯：

看完視頻的網友直呼“這進展也太快了，要知道文本-圖像生成模型DALL-E2和Imagen才剛出”

還有網友想象：照這個速度發展下去，馬上就能看到AI一句話生成VR頭顯里的3D視頻效果了：

所以，這只名叫CogVideo的AI模型究竟是什么來頭？

生成低幀視頻后再插幀

團隊表示，CogVideo應該是當前最大的、也是首個開源的文本生成視頻模型。

在設計模型上，模型一共有90億參數，基于預訓練文本-圖像模型CogView2打造，一共分為兩個模塊。

第一部分先基于CogView2，通過文本生成幾幀圖像，這時候合成視頻的幀率還很低；

第二部分則會基于雙向注意力模型對生成的幾幀圖像進行插幀，來生成幀率更高的完整視頻。

在訓練上，CogVideo一共用了540萬個文本-視頻對。

這里不僅僅是直接將文本和視頻匹配起來“塞”給AI，而是需要先將視頻拆分成幾個幀，并額外給每幀圖像添加一個幀標記。

這樣就避免了AI看見一句話，直接給你生成幾張一模一樣的視頻幀。

其中，每個訓練的視頻原本是160×160分辨率，被CogView2上采樣（放大圖像）至480×480分辨率，因此最后生成的也是480×480分辨率的視頻。

至于AI插幀的部分，設計的雙向通道注意力模塊則是為了讓AI理解前后幀的語義。

最后，生成的視頻就是比較絲滑的效果了，輸出的4秒視頻幀數在32張左右。

在人類評估中得分最高

這篇論文同時用數據測試和人類打分兩種方法，對模型進行了評估。

研究人員首先將CogVideo在UCF-101和Kinetics-600兩個人類動作視頻數據集上進行了測試。

其中，FVD（Fréchet視頻距離）用于評估視頻整體生成的質量，數值越低越好；IS（Inception score）主要從清晰度和生成多樣性兩方面來評估生成圖像質量，數值越高越好。

整體來看，CogVideo生成的視頻質量處于中等水平。

但從人類偏好度來看，CogVideo生成的視頻效果就比其他模型要高出不少，甚至在當前最好的幾個生成模型之中，取得了最高的分數：

具體來說，研究人員會給志愿者一份打分表，讓他們根據視頻生成的效果，對幾個模型生成的視頻進行隨機評估，最后判斷綜合得分：

CogVideo的共同一作洪文逸和丁銘，以及二作鄭問迪，三作Xinghan Liu都來自清華大學計算機系。

此前，洪文逸、丁銘和鄭問迪也是CogView的作者。

論文的指導老師唐杰，清華大學計算機系教授，智源研究院學術副院長，主要研究方向是AI、數據挖掘、機器學習和知識圖譜等。

對于CogVideo，有網友表示仍然有些地方值得探究，例如DALL-E2和Imagen都有一些不同尋常的提示詞來證明它們是從0生成的，但CogVideo的效果更像是從數據集中“拼湊”起來的：

例如，獅子直接“用手”喝水的視頻，就不太符合我們的常規認知（雖然很搞笑）：

（是不是有點像給鳥加上兩只手的魔性表情包）

但也有網友指出，這篇論文給語言模型提供了一些新思路：

用視頻訓練可能會進一步釋放語言模型的潛力。因為它不僅有大量的數據，還隱含了一些用文本比較難體現的常識和邏輯。

目前CogVideo的代碼還在施工中，感興趣的小伙伴可以去蹲一波了~

項目&論文地址：https://github.com/THUDM/CogVideo

參考鏈接：[1]https://twitter.com/ak92501/status/1531017163284393987[2]https://news.ycombinator.com/item?id=31561845[3]https://www.youtube.com/watch?v=P7JRvwfHFwo[4]https://agc.platform.baai.ac.cn/CogView/index.html[5]https://www.reddit.com/r/MediaSynthesis/comments/v0kqu8/cogvideo_largescale_pretraining_for_texttovideo/

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

制作一個vr視頻多少錢（這個）

相關話題

熱門推薦

關注排行榜

編輯精選