自动驾驶、图像生成、2D 转 3D……
2021 年,哪些 AI 论文最火?又是哪些论文最具突破性?
最近一位 ÉTS 研究生、YouTube 博主总结了今年 AI 最新突破列表,视频、文章和代码一应俱全。
我们从中梳理出八大类,就跟大家一起来康康。
视频博主看过来
从中梳理最多的,当属一些利好视频博主的技术了。
比如,这个 TimeLens,它可以制作慢动作视频,最大范围可从原有的 30 帧扩展成 900 帧。
再比如,这个编辑神器 VGPNN—— 单个视频几秒内多样化生成。
像删除或添加某人、改变背景、时间拉长、改变长宽比、分辨率等功能在它面前,都是基本操作。
还有像在不影响背景或其他对象情况下,移动图像中的对象;使用 AI 分离真实世界中的声音,语音、音乐和音效之类……
具体在画质处理上,今年英特尔就用英伟达显卡做了画质增强补丁。今年 6 月,这个 Demo 在全网火了一把。
为了在 GTA 上效果更真实,研究人员改变了视频中 3 点特征:增加汽车的光泽、改善植被的整体外观、让沥青路面看起来更光滑。
对此,有网友表示,这比路径追踪便宜多了。
如果说肆掠的疫情让视频会议火了一把,那么视频会议软件让背景替换技术搬到了台前。
谷歌研究员就提出了一种重新光照的方法 Total Relighting,来给人像做背景替换。
它能根据新添加的场景光线,重新点亮任何肖像,以此看起来更加真实。
这一方法还可进一步延伸至电影、专业视频制作中,up 主可以用起来。
此外,除了背景替换,还有文字替换,风格还保留的那种。
今年,Facebook 提出了一种 AI 模型,它可以直接翻译或编辑图像中的文本,并且遵照同样的风格。
类似这样~
DALL・E 领衔的图像生成
图像生成领域,最具突破性的当属 DALL・E——OpenAI 在新年推出的“AI 设计师”,吴恩达点赞的那种。
简单来说就是,提出你的文本需求,它来生成图像。从原理上看,类似于 GPT-3 在文本合成图像方向上的扩展版。
比如输入“OpenAI 公司门面”,它就能给出十几张设计图供你选择。
还有像根据手绘草图来生成图像、使用随机微分方程进行图像合成和编辑等进展。
2D 图像生成 3D 模型
这是除图像生成外,另一个 2021 AI 领域热度极高的研究方向。
试想一下,如果只在现实生活中拍摄一张对象照片,就可创建 3D 格式将其插入视频或者游戏中,会有多酷。
谷歌研究院提出的 ShaRF 就可以做到,比如随意拍的一个椅子。
英伟达也提出了类似的解决方案 GANverse3D,只需一张图像,就可创建可自定义的 3D 动画。
还有前段时间火爆外网的假 3D 场景,也是通过一组照片渲染出来的。
以及 LASR 模型 —— 从短视频中单拎出一个对象来,创建人类或动物的 3D 模型…… 类似的方法还有很多。
万物皆可与 Transformer 结合
你是否想过把 CNN 与 Transformer 结合起来?
2021 年,“跨界输出”在 AI 领域掀起潮流。
基于 CNN 效率和 Transformer 的表达能力,德国海德堡大学的研究人员提出一种高分辨率图像生成的方法 ——Tl;DR。
还不只是 CNN 和 Transformer。
斯坦福和 Facebook 的研究人员提出 GANsformers—— 基于 StyleGAN2 架构中 Transformer 的注意力机制,来生成场景图片。
应用层:试衣间、天气预报
除此之外,还有原有模型基础上应用层面的延伸。
就如谷歌提出了基于 StyleGAN2 架构的改进版,创建了一个 AI 在线试衣间。
只需要提供一张你的图像,就能自动试穿任何衣服。
还有像巴塞罗那大学的研究人员开发了一种基于深度学习,能从航拍图像中自动检测漂浮的垃圾,并计算数量。
为此,他们还制作了一个 App,用户可在海面图像中识别这些垃圾。
还有 Apple 提出应用在相册的 ML 算法,在 iOS 15 上自动识别私人照片中的人;DeepMind 提出了一个使用雷达深度生成模型,来更准确的预报天气。
AI 驱动的赛博朋克手臂
明尼苏达大学的研究人员打造了一款赛博朋克手臂 ——AI 驱动的神经接口。
据介绍,截肢者可以像寻常人一样灵巧的控制手臂。
编程神器:GitHub Copilot
对于开发者而言,今年最具突破性的进展莫过于编程神器 ——GitHub Copilot,由 GitHub 与 openAI 联合开发。
只需描述出你想要执行的命令,就能生成相应的代码。
甚至程序员只要写下一段注释,Github Copilot 就可以补全剩下的代码、提出改进的建议,为程序员省去大量查找的时间。
特斯拉的自动驾驶
值得一提的是,这次还有特斯拉的自动驾驶入选。
在特斯拉的 AI day 上,人工智能总监 Andrej Karpathy 展示了特斯拉如何通过 8 个摄像头来获取图像到道路导航的过程。
这当中包括压缩数据、二维转变为三维输出等操作。
除此之外,还有像面对第三次人工智能浪潮,研究人员对 AI 中快与慢思考;AI 伪造类似“探探”个人档案,来探讨人类会不会向右滑动;Transformer 是如何在 CV 领域取代 CNN 的。