谷歌展示AI生成超分辨率长视频，结合Imagen Video Phenaki两种模型

【蜂耘网人工智能】如同最近一年 DALL-E 2、Stable Diffusion 等文本生成图像模型发展一样，用文本来生成视频的 AI 工具也正变得越来越多。

继 Meta 的 Make-A-Video 之后，谷歌也接连发布了两款视频模型 Imagen Video 和 Phenaki。两者分别强调视频的质量和长度等不同功能。

Meta日前，在人工智能活动上，谷歌首次发布了由 Imagen Video 和 Phenaki 一同生成的视频。该视频结合了 Phenaki 生成长视频能力和 Imagen 的高分辨率细节。

“我认为使用一系列提示，创造这样的超分辨率长视频令人难以置信，这是一种讲故事的新方式，”谷歌研究中心首席科学家兼谷歌大脑团队研究总监道格拉斯·埃克（Douglas Eck）在活动中分享说，“很期待电影人或视频故事讲述者如何利用我们的技术。”

谷歌在官方博客中表示，Imagen Video 和 Phenaki 的结合是一项重要突破，它正在努力打造领先行业、能生成高质量影响的工具。AI 驱动的生成模型有着无限的创造力，可帮助人们借助视频、图像工具，以他们之前无法做到的方式充分表达自身想法。

再分别简单介绍下 Imagen Video 和 Phenaki。

据了解，Imagen Video 基于级联视频扩散模型来生成高清视频。如输入文本提示后，基本视频扩散模型和多个时间超分辨率（Temporal Super-Resolution，TSR）及空间超分辨率（Spatial Super-Resolution，SSR）模型，分别以 40×24 像素和 3 帧/秒速度生成 16 帧视频、以 1280×768 像素和 24 帧/秒的速度采样，最终得到 5.3 秒的高质量视频。

（来源：谷歌）

该模型还用到了 Video U-Net 架构，能够使其对长时间动态进行建模。时间自注意用于基本视频扩散模型，而时间卷积用于 TSR 和 SSR。

另外，它训练所用数据来自 LAION-400M 图像文本数据集和 1400 万个视频（包括对应的文本）、6000 万个图像（包括对应的文本）。

值得一提的是，Imagen Video 中的扩散模型都可单独训练。然后，该系统不仅能够生成高保真视频，而且还具有高度的可控性和对世界知识的理解力，从而能够使得生成的视频和文本动画具备各种艺术风格。

而 Phenaki 是一个能够在给定一系列文本提示的情况下，进行逼真视频合成的模型。谷歌对此用到了一种新的因果模型，其可将视频表征为小型离散令牌，这允许它处理可变长度的视频。用户还可以在其中叙述和动态更改场景。

为了从文本生成视频令牌，谷歌还使用双向屏蔽转换器。而为了解决训练数据较少问题，谷歌还通过在大型图像-文本对语料库和较少的视频-文本示例上进行联合训练，从而拓展视频数据集的可用范围。

相较其他视频生成模型，Phenaki 可通过一系列提示，在开放域中生成所有时间段的视频。谷歌在官网提到，这是首次以时间变量提示生成视频。此外，研究所提出的视频编码器-解码器在多方面都优于文献中目前使用的所有每帧基线。

Phenaki 可以将详细的文本提示转换为两分钟以上的视频，但缺点是视频质量较低。

图 | Phenaki 根据文本生成视频示例（来源：谷歌）

另外，在本次 AI 活动日上，谷歌还介绍了自家其他模型的一些进展，比如通过 LaMDA 对话模型来写实验小说（谷歌即将发表一篇该方面的论文），并提到了使用 AI 来生成代码，用 AudioLM 生成音频、将 Imagen 与 NeRF（神经辐射场，Neural Radiance Fields）的 3D 功能结合等等。

“生成领域在短时间内能有如此多进展，我是没有想到的。”埃克对外谈道。

不过，值得注意的是，目前生成式 AI 仍有一些问题需要处理。比如，Imagen Video 和 Phenaki 有被滥用的风险，生成虚假、仇恨、露骨等不良内容。谷歌目前也采取了输入文本提示过滤和输出视频内容过滤等措施来最大程度地减少这些问题。但对于一些社会偏见和刻板印象仍难进行检测和过滤，因此谷歌还未正式发布相关模型及源代码。

最后，谷歌在活动中还表示，其从一开始就对负责任的人工智能高度关注，将持续进行对抗性测试，并设定了一套定量基准，可以在AI的所有维度上进行测量和验证。

谷歌 CEO 桑达尔·皮查伊（Sundar Pichai）在与会视频中说：“我们致力于确保技术是为了帮助人们更好地生活。”他还指出了AI带来的风险和挑战，并表示，谷歌将优先考虑人们的安全和隐私，而不是其他任何事情。

（蜂耘人工智能网责任编辑：墨染）

2022-11-07 09:54

ꄴ前一个：无

ꄲ后一个：无

来源：DeepTech深科技
如同最近一年 DALL-E 2、Stable Diffusion 等文本生成图像模型发展一样，用文本来生成视频的 AI 工具也正变得越来越多。

声明：凡来源标明“蜂耘网”的文章版权均为本站所有，如需转载请务必注明出处，违者本网将追究相关法律责任；所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息，均不代表本网立场及观点，“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任；如涉及版权等问题，请在内容发表之日起一周内与本网联系，否则视为放弃相关权利。

所有评论仅代表网友意见，与本站立场无关

跟帖用户自律公约

最新资讯

2024-11-25
如何为智能云播报挑选合适的物联网卡？物联网卡的选购指南
2024-11-25
改变日常生活：物联网解决方案的力量
2024-11-25
全球智慧物联网联盟在深圳成立
2024-11-22
北方最大海水淡化项目在天津投产，该领域首次实现国产化
2024-11-22
中国联通 2024 年 10 月 5G 套餐用户数达 2.88 亿户
2024-11-22
何小鹏：MONA M03即将于2025年一季度推出哨兵模式

推荐阅读

热门排行

2022-08-25
全部下架！夸克这些羞羞资源，彻底凉了
2022-10-13
东莞市委副秘书长甘伟佳赴墨睿科技调研
2022-10-24
专职消防员新规征求意见：关于工资待遇、退出安置、岗位编制、社会优待等政策
2022-10-18
中交集团粤港澳区域总部与科大讯飞签署战略合作框架协议
2022-09-30
概述：钛铝合金粉末生产工艺及3D打印应用
2023-03-29
公安部印发《加强新时代公安派出所工作三年行动计划（2023-2025年）》
2022-10-25
二十大报告：打造宜居、韧性、智慧城市
2022-11-17
实现全球磁场测量我国自主研发量子磁力仪载荷首次建功

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

一文了解查理·芒格：为什么他是巴菲特最推崇的人

来源：
①巴菲特写道，“如果没有查理的灵感、智慧和参与，伯克希尔-哈撒韦公司不可能发展到今天的地位”；
②芒格曾表示，“如果世上未曾有过查理·芒格这个人，巴菲特的业绩依然会像现在这么漂亮 ”
③两周前，芒格还公开在节目中维护93岁的老友巴菲特。

넶150 2023-11-29
面壁者，拉里·佩奇

来源：中欧商业评论
这两年，硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦，这为他的公司引来了铺天盖地的负面新闻，然而，他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

넶266 2022-06-15
百岁中科院院士文圣常逝世！被誉为我国海浪研究的“点灯人”

来源：南方都市报
3月21日上午，中国海洋大学发布讣告，中国科学院院士、著名物理海洋学家、该校教授文圣常，因病医治无效，于3月20日15时37分在山东青岛逝世，享年101岁。

넶305 2022-03-21

会议活动

南京人工智能大会圆满收官！科技浪潮再掀新篇章！

来源：蜂耘网
智领风潮，智汇未来。6月27日，南京人工智能产业生态大会圆满落下帷幕。

넶153 2024-06-28
苏州人工智能大会圆满成功：科技智慧相互交融共绘AI新蓝图

来源：蜂耘网
2024年6月26日，蜂耘网主办的苏州人工智能产业生态大会如期举行。

넶156 2024-06-27
南京人工智能大会即将召开！汇聚业界智慧共探AI无限可能

来源：蜂耘网
南京人工智能大会计划于6月27日在南京举行，大会以“产业变革，抓住机遇”为主题，共同探讨人工智能产业的最新技术、新的应用场景以及未来的发展趋势等问题。

넶136 2024-06-18