加入收藏 | 设为首页 | 会员中心 | 我要投稿 南京站长网 (https://www.025zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

AI版「女娲」来临!文字生成图像 视频,八类任务一个模型搞定

发布时间:2021-11-29 13:29:27 所属栏目:传媒 来源:互联网
导读:近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nwa(女娲)也火了。 随着 VQ-VAE 这种离散化 VAE 方案的出现,高效和大规模的预训练被逐渐应用于视觉合成任务,例如 DALL-E(图像)、GODIVA(视频)。这
近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。
 
 
随着 VQ-VAE 这种离散化 VAE 方案的出现,高效和大规模的预训练被逐渐应用于视觉合成任务,例如 DALL-E(图像)、GODIVA(视频)。这些模型虽然取得了巨大的成功,但仍然存在一些局限性——它们分别处理图像和视频,专注于生成其中一种,这限制了模型从图像和视频数据中受益。相比之下,「女娲」是一个统一的多模态预训练模型,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果。
 
 
模型概览
该研究提出了一个通用的 3D transformer——编码器 - 解码器框架(如下图所示),同时涵盖了语言、图像和视频,可用于多种视觉合成任务。该框架由以文本或视觉草图作为输入的自适应编码器和由 8 个视觉合成任务共享的解码器组成。
 
 
该框架还包含一种 3D Nearby Attention (3DNA) 机制,以考虑空间和时间上的局部特征。3DNA 不仅降低了计算复杂度,还提高了生成结果的视觉质量。与几个强大的基线相比,「女娲」在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果。此外,「女娲」还显示出惊人的零样本学习能力。

(编辑:南京站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读