澎湃新闻记者 周玲
日前,因为英伟达CEO黄仁勋在一场演讲中用了14秒的“数字人”视频引发了广泛的关注,从而把“数字人”乃至“元宇宙”从专业人士带入到大众视野。
澎湃新闻记者日前对话了英伟达三位技术专家,英伟达中国区高级技术市场经理施澄秋、英伟达高级解决方案架构师宋毅明和英伟达中国区传媒娱乐行业经理何展(文中统一用英伟达技术专家来称呼)来讲述什么是数字人、什么是元宇宙,元宇宙离我们到底有多远,元宇宙会带来那些改变?
英伟达将自己定位为提供基础底层服务架构的。元宇宙概念平台Omniverse像是一个工具箱,也是一个技术平台底座,集合了英伟达过去二十多年在AI、HPC和图形各方面的技术、算法、标准。英伟达希望搭建一个技术平台,服务艺术家、创造者以及一些C端、B端的用户。
英伟达技术专家表示,Omniverse为“数字人”引入了最接近“人”的表情、语言系统,相比此前繁琐的技术环节,现在只需要通过基于AI深度神经网络感知能力的英伟达会话式人工智能系统,把文字变成丰富面部表情,再基于AI实时渲染系统叠加到虚拟人上。英伟达认为,当可以实现数字人和真实人类之间的沟通交互,实现真实和虚拟世界交互时,也就完美契合了元宇宙概念,这个阶段要在五到十年后。
以下与英伟达技术专家对话节选
澎湃新闻:上周SIGGRAPH2021大会上播放了一部关于GTC Keynote演讲的纪录片,揭示了数字生成在台前幕后的新应用,其中有一个14秒视频是黄仁勋的“数字人”虚拟视频,引发了广泛关注。这里面用到了哪些技术,请介绍一下数字人的发展。
英伟达技术专家:在演讲中黄仁勋有十几秒的虚拟分身,可以看作一个数字人。其实可以把数字人概念当成卡通人物或虚拟角色,它已经存在已久。比如虚拟偶像开演唱会,日本动漫行业也推出了好几个虚拟偶像,形象很丰满。这些和传统动画片人物的最大分别在于,其不仅利用了3D渲染技术让它看起来更像一个人,还利用了全息技术实现裸眼3D,让它栩栩如生地站在舞台上唱歌,这些都是传统概念当中虚拟人必备的一些元素。
但在NVIDIA看来,虚拟人是虚拟出来的,应该更接近一个“人”,即数字人(Digital
Human)。人类和虚拟角色、卡通人物最大的区别是有感情、能够体会到喜怒哀乐,且能够把喜怒哀乐实时地通过语言、表情等来体现,这也是虚拟人的精髓。也就是说,虚拟人的外形要栩栩如生,这就要利用英伟达GPU技术来渲染,以实现皮肤、毛发、衣物、配饰符合自然界物理定律。如果这个人物在跳舞的时候项链不动、贴在身上,那就不是虚拟人了,而是普通的3D动画。并且如果十年前推出的虚拟角色和二十年后推出的虚拟角色头发都一样,那也不切实际,年轻人、中年人、老年人的毛发系统是不同的,皮肤随着年龄的增长也是不一样的。
Omniverse(英伟达推出的以元宇宙概念为基础虚拟协作和模拟平台)中的OmniSurface系统能够渲染不同的材质和表面,针对数字人也有一系列不同的渲染机制。利用GPU渲染可以让数字人更接近真实的人类,这是数字人的第一个方面。
第二个方面,RTX
Render技术,即实时光线追踪技术。把数字人放到虚拟环境中后,环境有光照系统,也有传统的路径追踪系统,虚拟人会和周遭环境进行互动,虚拟人和环境的多次光线迭代也会给整个环境全局照明带来影响,
OmniSurface加上RTX Render可以实现实时的数字人(Digital
Human)渲染,以及材料、POV的渲染,从元宇宙概念来看整个虚拟世界,模拟城市、人员、建筑等一系列复杂的生态环境系统都可以通过Omniverse完成,这是数字人和环境的互动。
最重要的是,为数字人引入最接近“人”的喜怒哀乐——表情、语言系统。Audio2Face只需要一段文字,便能够通过基于AI深度神经网络感知能力的英伟达会话式人工智能系统,来感知语言下的情绪,把一段文字变成丰富的面部表情,再自动基于AI实时渲染系统叠加到虚拟人上。而以前则要进行配音、口形适配,并考虑当前的语态、语境,进行面部表情分离,重新渲染面部表情,整个环节太繁琐,时间、人力、物力成本都过于巨大。
现在,结合Audio2Face、OmniSurface和RTX
Render能够实时地把数字人做得更逼真更详实,不仅是一个虚拟内容,更注重的是用数字化的形式呈现“人类”。在Omniverse加持之下,能够满足过去数十年我们对虚拟人的设想,通过当前的软硬件技术以及网络云原生的Omniverse平台,以一站式解决方案把数字人包装得更逼真、更详实、更符合自然界的物理定律,无论是人本身的皮肤、毛发,还是身上的配饰、衣物,甚至与周遭的环境、光线的互动,都能更好地实现。
随着每个数字人周遭环境的放大,以及日后GPU算力、Omniverse平台能力的不断提升和版本迭代,我们最终能够实现元宇宙的构想。
澎湃新闻:英伟达数字人的路线图是什么?什么时候能做到假人和真人之间的交互?
英伟达技术专家:英伟达在硅谷有专门的数字人研究团队,有非常清晰的路线图。
第一阶段,要把它做像了,利用CG(计算机动画)技术和实时光线追踪渲染技术把它做像了。比如14秒黄仁勋数字人分身,这一阶段已经非常成熟到位了,很多平台都可以做到,只要有非常懂CG艺术的专家和设计者,将相关的动物采集数据、镜头,甚至血液流动算法等堆叠起来即可。
第二阶段,通过一些要素驱动数字虚拟人。现在国际上有比较流行的三个要素可以驱动数字虚拟人:一类是视频,类似短视频,做一些视频人物的动作,通过视频驱动第一阶段做出来的很像的数字虚拟人。另一类是“中之人”,这个概念来自日本,现在最贴切的展示方式就是穿动捕服的演员,就像大片拍摄中通过“中之人”驱动数字虚拟人。还有一类就是语音语义,英伟达数字人研究院就选定了语音语义这个要素作为驱动数字人的技术切入点,为什么选它呢?这三类中最容易获得的就是语音语义,而且很方便,通过一段语音或者一段文字就可以驱动数字虚拟人。
英伟达在这里扮演的是什么角色呢?这里介绍刚刚更名的开源平台——NVIDIA
Riva,是通过算法优化的平台,其中有一个功能模块叫做Audio2Face,可以通过一段音频驱动数字人面部表情的动捕,就像正常人说话一样,实现口音口型和面部表情、细微动作。所以黄仁勋演讲中,别看短短14秒,里面包含了很多技术,其中就有一段Audio2Face,所有的数字通过动捕方式采集好之后,模拟口形、动捕演员的驱动都会涉及到这些要素。
第三阶段就比较升华,每个阶段都需要两到三年,我们认为第三阶段才是数字虚拟人真正达到应用级别产品化的阶段,应该是在五到十年后。
到了第三阶段,我们可以实现数字人和真实人类之间的沟通交互,也可以实现数字人和数字人之间的沟通交互,这个也叫做真实和虚拟世界的交互,其实也完美地契合了元宇宙的概念。
澎湃新闻:真正进入虚拟和真人之间的交互的第三阶段需要具备哪些条件?
英伟达技术专家:第一阶段其实已经很成熟了,已经有很多平台可以做到。第二阶段属于初期,我们某些客户合作伙伴都已经做到了初级阶段,很多算法已经交付给了市场。大家可以看到很多语音播报员背后的逻辑就是第二阶段的技术。我们认为这一阶段过两到三年就会进入成熟期。
再过两到三年以后就会进入第三阶段初始的发展期和萌芽期,五年左右的时间点是一个非常重要的时间点,那个时间段英伟达GPU平台的算力,包括自己各种算法的迭代,到那个时候也会有非常大的改进和提高。当大家在生态系统当中做数字虚拟人平台和创作者时候,这三五年一定会有非常大的训练集驱动走到3.0时代。五年那个时间点才是进入3.0时代真正有可能看到,就是真正能够用的真实和物理世界交互的数字人应用出现的时间点。
举个非常有意思的例子,大家知道现在去银行的网点,柜台都超不过五十到一百次,银行现在正在考虑把所有的网点变成数字虚拟人,通过AR技术替换现在人工窗口的营业员。这些应用在各行各业,所有的企业都已经看到了,这就是我们认为数字虚拟人市场需求这么强劲的原因,也是因为客户和市场驱动我们挑战新的技术。
澎湃新闻:刚才讲到虚拟数字人的技术应用,比如银行、政务和商务的场合,这里面有那些场景是你们看到可以率先落地的?
英伟达技术专家:有很多职业,可以和大家分享一下英伟达已经做过的数字虚拟人案例。比如数字主持人,就像《飞向月球》第二季,我们重建了央视某纪录片频道的著名主持人。然后还有数字导购员、数字4S店销售、数字导游,包括现在数字的窗口营业员。还有一类非常有意思,如果大家关注Instagram这些国外比较流行的社交媒体网上有数字明星。去年疫情最严重的时候,日本曾经做过一个调研,日本市场最受欢迎的一个明星居然是一个数字虚拟人,她在Twitter上的粉丝高达数百万,所以营销IP的公司相当于打造了一个数字模拟器。包括大家看到电影《双子杀手》也是一种数字人的体验形式,还有国内的数字王国“邓丽君”
“张国荣”的数字IP应用,我们看到了很多很多,就像雨后春笋一般出来。流媒体平台上面也是越来越多。
澎湃新闻:Omniverse是英伟达推出的全球首个为元宇宙建立提供基础的协作平台,你们推出Omniverse的初衷和契机是什么?
英伟达技术专家:今年并不是Omniverse的元年,英伟达在2019年就提出了Omniverse,并且已经为这个平台布局了很久。大家都知道Metaverse即元宇宙的概念,其核心技术要素包括AI、区块链、VR/AR/MR等XR技术、可视化的渲染技术等。这些方面的技术在最近几年处于集中爆发期,并且现在我们进入了5G时代,这为真实世界和数字虚拟世界的交互提供了足够的带宽以及交互的技术基础。这些因素促进1992年提出的元宇宙概念如今成为了一个火热的话题。英伟达对这些技术都有所涉及,所以在此契机下提出了英伟达所理解的元宇宙概念平台——Omniverse。我个人认为它像是英伟达为创建元宇宙数字化虚拟空间的奇点,也可称之为技术平台底座,集合了英伟达过去二十多年在AI、HPC和图形各方面的技术、算法、标准,又像是一个工具箱,大家在创造数字化虚拟空间时,需要螺丝就可以在这里拿一个螺丝,需要一个剪刀就拿一个剪刀。英伟达希望搭建一个技术平台,服务艺术家、创造者以及一些C端、B端的用户,以实现元宇宙。
澎湃新闻:Omniverse主要提供哪些产品和服务?面向的服务对象和行业是什么?
英伟达技术专家:Omniverse中有五大核心部件,包括Nucleus、Connect、Kit、RTX
Render、Simulation,这些是我们的技术底座。Nucleus提供了云原生技术的底座,RTX
Render最多可以在云上调用48个GPU来提供同步渲染机制,这解决了很多行业的痛点,例如,有很多客户只能调用自己工作站中的GPU资源,技术管理仍然基于第三方的传统工具,无法跟产品连接起来。Kit组件将英伟达的图形计算和AI技术暴露给开发者,开发者可以利用KIT打造适合自己的工作流程。这些面向开发能力较强的用户。针对终端用户即开发能力较弱的用户,英伟达也打造了一些服务,比如面向设计师的Create部件。还有针对AEC建筑行业的View、方便机器人仿真结构学习的Issac
Sim,可以运用渲染效果实现可视化,以及即将推出的无人驾驶仿真平台Drive
Sim。这些就是Omniverse所提供的产品和服务,Create、View、Drive Sim、Issac
Sim偏向于面向终端用户的产品,而服务则包括五大核心中的Nucleus、Kit、RTX Render、Simulation
、Connect,其中Connect能够把第三方DCC(Digital Create
Content)工具通过USD方法整合到Omniverse平台进行加速。
Omniverse分为to
C端及to B端。针对C端消费者的Individual版本面向个人,全部免费提供给用户,在官方网站、微信公众号等渠道都公开了下载链接。To
B端是将在今年秋季发布的Omniverse Enterprise,功能会更加完整、强大,是付费版本。
澎湃新闻:对于英伟达而言,未来希望在元宇宙当中处于什么位置,或者扮演怎样的角色?
英伟达技术专家:英伟达的位置应该是提供基础底层服务架构的。Omniverse是一个工具,通过这个工具让各种各样的ISV、开发者和用户自己打造自己的内容。最近几年非常流行的一个词叫做UGC,User-generated
Content,就是用户产生内容。我们给用户工具以后让用户自己根据各式各样的创造性思维打造逼真的世界和高度还原的东西,英伟达就是处在底层提供技术底座和提供工具方面入手。就像之前的加州淘金热,我们是提供基础工具铲子,当然这个技术铲子门槛可能比较高,不像淘金那个时候相对来说技术比较原始,我认为是这样一个位置。
澎湃新闻:现在要解决算力问题的话,全球现在算力可以达到怎样的水平?未来实现元宇宙的算力大概是多大的?中间有多难或者多长的距离需要跨越?
英伟达技术专家:现在我们从事元宇宙是从一个小的宇宙,比如模拟一个屋子再到一个小的社区,或者是一个小的区域来说,慢慢地把所有人和事物连接进来,整体算力应该是很大的,第一步就是能够调用多种类型的GPU加速这样一个过程。我们回到Omniverse本身的架构,可以调用64个云上GPU同时渲染一个场景,但随着后面技术的不断更迭会有更多的GPU,成百上千或者上万GPU同时加速一个元宇宙的场景,现在我们是调用64个GPU加速一个场景这样一个阶段。
澎湃新闻:中国也许多布局元宇宙的公司,你们如何看待元宇宙在中国市场的机会?
英伟达技术专家:实际上元宇宙不是某一家公司就全都能够实现的,需要一个整体的、多家的平台共同努力。这里有很多玩家,国际上就是Facebook、微软、Roblox、英伟达,包括国内在做的腾讯全周期互联网就是一个对等的平台,这么多玩家在一起才能实现,国内有很多做数字孪生的、做数字资产库的这些生态合作伙伴跟我们合作的也比较多,都在贡献自己的一些力量,他们也期待借着这个概念平台的兴起会出现新的爆款产品。
借此机会也和大家分享一下某客户发布的模拟加州大火燃烧蔓延趋势,为什么英伟达理解的元宇宙和Omniverse和仅限于游戏世界的元宇宙不一样,这里就有图形学的概念。这些全是假的,就是模拟火势燃烧,然后结合AI技术,当地的风向、湿度、树木的分布图,火焰真正燃烧起来的蔓延是怎样的,这些视频技术的模拟可以帮助消防管理负责人员进行快速决策,也是我们真正服务于现在各种各样需求的一个很经典的案例。