AI 给我们的生活带来了许多乐趣,从 AI 美颜到 AI 变脸,再到今年火爆全网的 AI 修复 1929 年老北京生活的 3 分钟影像资料和全球首个 3D 版 AI 合成主播。这些新鲜有趣的应用为什么在 2020 年火爆全网?背后推动力是什么?
火爆B站的 AI 修复老北京影像–盲人”爵士”乐队
全球首个 3D 版 AI 合成主播新小微,图片来自新华社
北京国际广播电影电视展览会(BIRTV)2020 期间的一场媒体活动上,NVIDIA 专业可视化亚太区业务主管沈威表示,传统“离线式”渲染、预录式的内容无法加入更多互动和特效的直播视频内容已经不能够满足当前广播电视行业的需求,尤其是当下的 AI 时代。利用 NVIDA GPU 的实时光线追踪技术及深度学习技术,可以为广播电影电视行业带来更多不一样的体验。
AI 带给广电行业的两大变革
修复老北京生活影像和 3D AI 主播恰好代表了 AI 给广播电影电视行业带来的两个变革——对过去缺损画面、素材残缺像素的“无中生有”,以及实时渲染带来的更强互动性。
NVIDIA 中国区高级技术市场经理施澄秋表示:“我们看到广电行业的趋势是从 OTT(流媒体服务)向 SVOD(视频点播)过渡,并且市场也在蓬勃壮大。在这个增长过程中,要么内容极剧爆炸、要么让老影片有更高分辨率。”
GPU“无中生有”修复过去
7 月份火遍全网的 1929 年的老北京生活视频,不仅用 AI 对视频进行上色、补帧、提升了分辨率,还通过时代原声还原了老北京味。这个视频的火爆离不开新的 AI 算法 DeepRemaster,当然也需要有强大硬件作为支撑。
为图像处理而生的 GPU 是不二的选择。据悉,NVIDIA 有一项叫做 NGX 的技术,先用像 DeepRemaster 这样自动完成画面修补、美化和降噪的 AI 算法对 GPU 进行训练,然后 NGX 就能“无中生有”来做画面插帧、超级分辨率、慢动作等。
施澄秋对雷锋网表示,对于插帧而言,如果用传统的人工方式来做,一天只能做2-3 帧,借助基于 GPU 的 AI 技术后,一天的插帧和修复可以达到百万帧级别,这是一个巨大的效率提升。
AI 插帧还能在大幅缩短周期的同时实现更好效果。施澄秋以很多电影中都有千军万马的场面举例,如果用一匹马复制,不仅呆板而且运动轨迹都一样。但用人工的方式周期长且成本高,借助 NGX 技术,就可以得到形态各异的马。
AI 插帧能让老视频有更好的流畅度,达到 1080P 甚至 4K、8K。借助 AI 插帧和着色技术,还能够实现超级慢动作。超级慢动作是用超高帧率的摄像机(120 桢/秒、240 桢/秒)拍摄视频,然后再以低帧率(30 桢/秒、40 桢/秒)播放。
但很多素材比如用手机拍摄的突发新闻本身就只有 30 桢/秒的帧率,如果做慢动作就会像放幻灯片一样卡顿。利用 NVIDIA NGX 的“无中生有”技术生成帧间像素,就可以得到非常平滑逼真的慢动作。
帧率决定着视频的流畅度,分辨率更直接的影响着观感。“SUPER-RES(超级分辨率)不是新概念,以前要实现 SUPER-RES 可能需要非常昂贵的硬件,且制作周期非常长,现在利用我们的 NGX AI 技术就可以做实时 4K 分辨率的超级分辨率。” 施澄秋表示。
那效果如何?当虹科技就基于 NVIDIA 图灵(Turing)架构 GPU 推出了离线超级分辨率产品,支持标清转高清/4K、高清转 4K/8K 等。借助 AI 算法训练高频细节,实现高保真缩放。
当虹科技 AI 超分技术
还有强氧科技的 DaVinci Resolve,这是一款融合了专业 8K 剪辑、调色、视觉特效和音频后期制作工具。能够通过插补帧做慢动作,惊艳的自动调色,也能做匹配内容、物体自动移除等。
值得注意的是,当虹科技和强氧科技都提到了 NVIDIA 实时光线追踪 GPU 的性能优势。根据当虹科技给出的数据,不同的 NVIDIA GPU 的 AI 超分深度学习推理性能相比 CPU 有 10 倍到 25 倍不等的性能优势。
强氧科技给出的 4K BRAW、6K BRAW、8K BRAW 的测试显示,NVIDIA 的 Quadro RTX 6000 相比 CPU 也有 2 倍左右的性能优势。
GPU 实时渲染增强互动性
“无中生有”技术更多的是对已有视频素材的增强,面向未来,GPU 带来的是互动效果的增强,让广电的单向推荐也借 GPU 的 AI 功能变成双向智能推荐。
文中开头提到的 AI 合成的主播,其实 2018 年就已经有,但受限于当时的 AI 技术以及计算、渲染能力,那时的 AI 主播只有面部表情,没有肢体动作等。因此,今年全国两会期间进行新闻资讯播报的 3D 版 AI 主播新小微一亮相就获得了极大的关注。
图片来自新华社
GPU 的实时渲染能力决定着数字人的逼真程度,据悉,要实现一个特别写实的数字人,脸部的模型、加上毛发等面数接近 500-600 万。这个量级上,要做到面部表情、整个身体实时驱动,需要帧率保持在 50-60 帧之间,因此算力是主要的瓶颈所在。
博采传媒前期部总监沈辰奇也表示:“2017 年我们推出了国内第一部全部用 GPU 渲染而成的动画电影《昆塔:反转星球》,GPU 渲染比以前用 CPU 渲染的成本优秀太多,但仍然是我们制作流程的一个瓶颈。”
施澄秋说:“GPU 在 3D 建模、3D 图形图像电视广电素材的片源制作中非常有优势。图灵架构的 RTX GPU 非常擅长实时渲染,能够满足数字人的渲染能力和算力要求。另外,交互式、对话式 AI 也可以应用到数字人中。”
尝到了 GPU 渲染整片的甜头,博采传媒在继续探索纯第二部 GPU 渲染动画时,想要实现基于 Unreal Engine(虚幻引擎)实现虚拟场景的反向投射。投射屏的尺寸规划是 800 平米,驱动这个巨型屏用 NVIDIA GPU 进行实时渲染测试还是有点慢。
“我们最后选择了 NVIDIA RTX 8000,利用 nDisplay 技术,实时驱动 1.8 亿个像素点。在实际拍摄时,摄影基地的景深和透视的变化完全同步匹配。这其中革命性的意义在于把后期合成的环节砍掉,做到所见即所得。”沈辰奇指出。
解决了拍摄背景的问题,博采传媒开发了一个基于超写实的数字人项目,可以用于代言、直播等。
基于虚幻引擎的天气播报,图片来自 unrealengine
数字人是给观众带来不一样的体验,Epic Games 的虚幻引擎则帮助创作者更好的创新,它被越来越多地用来做实时预览、特效预中期预演、后期预演等。Epic Games China 商务发展经理徐良安表示:“虚幻引擎不仅可以让所有参与制作的人员都可以实时修改,实时看到效果,具有很大的灵活性,还能大大节约成本。”
虚幻引擎和 nDisplay 技术不仅可以用于线性内容拍摄,还可以把场景分单元或者分组投射到不同屏幕上并进行融合,在演唱会上让观众和表演者能够更好的互动。Epic Games 也和美国著名说唱歌手 Travis Scott 合作,在《堡垒之夜》游戏中进行演出,让粉丝可以一边玩游戏一边观看演唱会,实现了很好的传播。
实时渲染正在打破行业的边界。新奥特产品中心总监王宁也表示:“去年开始,4K、8K 的内容越来越广泛。以前我们是通过 CPU 进行渲染加速,CPU 能处理更多线程,但实时渲染能力不强,所以我们选择了 NVIDIA 的 RTX 系列 GPU。特别是像我们石墨超清在线需要实时呈现到大屏幕的,需要 GPU 的显存能力。”
除此之外,基于 GPU 的 AI 也能应用到智能插播广告,通过 AI 算法插入5-10 秒的广告,既不影响观众的收看体验,也让广电的互动变成双向互动。
SDI 转向 IP,高清视频的时代即将到来
性能更强的图灵架构 RTX GPU 是让老北京视频、数字人在 2020 年备受关注的重要因素,但这些 AI 应用能否普及还有一个关键因素——视频传输。NVIDIA Mellanox 高级市场开发经理陈龙指出,1080P 以前,广电行业的视频传输靠 SDI (Serial Digital Interface,数字分量串行接口)。随着 4K 和 8K 业务的兴起,SDI 不能满足 4K 视频 8G-9G 的传输带宽需求。
如果用 4 根 3G 带宽的 SDI 传输 4K 视频,成本变高且组网复杂。直接换 12G 带宽的 SDI,由于高速信号在 SDI 铜缆中传输距离和速率成反比,只能传输大概 50 米的距离,不能满足广电行业需求。8K 的最低带宽需求将达到 25G-140G,SDI 更难以满足需求。
“我们判断,SDI 转向数据中心里的 IP 解决方案是大概率事件,后者不仅成本比定制化 SDI 成本更低,带宽也更高。” 陈龙介绍。
但 SDI 转换为 IP 解决方案之后,终端 CPU 处理协议栈的负载就会大幅上升。为此,Mellanox 的网卡集成了 Rivermax 技术,解决 SDI 转 IP 化之后传输标准的问题,也就是通过这个技术发送符合 SDI 要求的数据。另外,借助是 Kernel Bypass 技术,将协议栈的大量负载放在网卡,大幅降低 CPU 的负载。
还有 Frames 技术,网卡把接收到的每一行像素整合成一张图片后再传输给 CPU,也可以降低 CPU 的使用率。Mellanox 的网卡也支持虚拟化和云化,能够满足高清视频传输的稳定性要求,也有助于开拓更广阔的市场。
IP 解决方案优势明显,但也面临一层的链路、二层的逻辑链路、三层路由转发、报文缓存等问题,带来了故障的排查就非常复杂。这需要 What Just Happened 技术,实时监测交换机的状态,以及网卡内部的一些信息,有助于故障的诊断和排查。
陈龙说:“要 IP 化,只需要将价格昂贵的 SDI 加速卡换为 Mellanox 的网卡,可以支持 10G、25G、50G、100G、200G 乃至 400G 的传输带宽。当设备 IP 化之后,不仅解决了传输带宽不够、传输距离过短的主要的痛点,还降低了整个设备的采购成本。除此之外,因为本身 IP 是一个弹性的管道,在 IP 之上能够传输任意格式的报文。”
雷锋网了解到,Mellanox 已经与全球各大视频解决方案合作商开发了不同的产品,打入了 NBC、BBC、CNN 等著名的视频内容提供商。
雷锋网小结
广电行业正在越来越多地探索与 AI 的结合,基于更强大的 GPU 和优化的技术,AI 正越来越多的应用于提升分辨率,包括降噪、插帧、插植等应用中,让珍贵的旧视频焕发新的生命力,再次吸引大家的注意力。同时,GPU 更强大的实时渲染能力也让直播或者视频内容的制作增加了更多互动和特效,更加灵活和高效的创作方式打破了行业的边界,为未来的创新奠定基础,当然,这里面还需要 SDI 专向 IP 解决方案,满足 4K/8K 的视频传输需求。
面向数据中心的安培架构 A100 GPU 已经在 5 月推出,安培架构游戏 GPU+Mellanox 网卡又会把专业可视化行业引向何方?