影子出卖你了?MIT新技术可根据影子还原电视画面

自古以来,偷窥的方法层出不穷:在窗户上戳个洞;在适当的角度摆一个镜子;安针孔摄像机……但你有没有想过,有一天,你家的墙甚至杂物堆也能当镜子用,看见你在房间里的一举一动。

影子出卖你了?MIT新技术可根据影子还原电视画面

近日,MIT 的研究人员借助一台摄像机,录下视频或人的动作在墙角杂物堆里投下的影子,就能大致还原出原始画面。

如下图所示,屏幕上正在播放一个人操作积木的视频,对面是一个杂物堆,屏幕发出的光投射在杂物堆里。研究人员就对着这个杂物堆进行拍摄,记录下视频的影子。

影子出卖你了?MIT新技术可根据影子还原电视画面

记录下来的画面如下所示(左1)。如果仅凭肉眼观察,这些影子非常杂乱,对我们几乎毫无意义。但研究人员可以利用神经网络对其进行还原。还原效果如下图(右1)所示。甚至颜色都能捕捉到。

影子出卖你了?MIT新技术可根据影子还原电视画面

影子出卖你了?MIT新技术可根据影子还原电视画面

具体来说,MIT 的一个研究团队七年前创造了一种新的成像系统,可使用地板、门和墙作为「镜子」来理解不在视线范围内的场景。使用特殊的激光来生成可识别的3D 图像,该研究开启了新的可能性,让我们可以更好地理解视线范围之外的东西。

影子出卖你了?MIT新技术可根据影子还原电视画面

最近,MIT 计算机科学与人工智能实验室(CSAIL)的一组科学家团队在这项研究上更进了一步,不过这一次他们没有使用任何特殊装备。

他们开发了一种可通过观察乱物堆上的微妙影子和反射影像重建视频的方法。这意味着,只需房间中有一个开着的摄像机,就可以重建出房间中看不见的角落的视频,即使这个区域在相机视野之外也无妨。

通过观察视频中影子和几何结构的交织情况,该团队的算法可以预测光线在场景中移动的方式,他们将此称为「光传输(light transport)」。然后,该系统可根据观察到的影子来估计隐藏的视频——它甚至可以重建实景运动的轮廓。

可用于自动驾驶等场景

这种类型的图像重建可以有利于社会的很多方面:自动驾驶汽车可以更好地理解转角处会出现什么、老年人护理中心可以提升居民的安全性、搜救团队也能提升自己在危险和有障碍区域中的能力。

这项技术是「被动式的」,也就是说,场景中没有激光和其它干扰。不过,目前的处理时间还依然长达大约两个小时,但研究者表示这项技术最终能够用于上述应用,为它们重建不在典型视线内的场景。

杂物堆≈针孔摄影机

「你可以使用激光等非视线成像设备实现一些东西,但在我们的方法中,你只需要有自然到达相机的光线,然后尽可能地提取出其中的稀有信息即可。」前 CSAIL 博士后及英伟达现任研究科学家 Miika Aittala 说,他现在主导着这项新技术的研究。「考虑到近段时间神经网络领域进展颇丰,现在看起来像是个解决这一领域之前被认为不可解决的难题的好时候。」

为了获取这种不可见的信息,该团队使用了微妙的、简洁的光线线索,比如被观察区域中杂物的影子和高光部分。

从某种程度上讲,一堆杂物的作用就像是一个针孔相机,这类似于你可能在小学科学课上造过的东西:它会遮蔽一些光线,但也会允许其它一些光线通过,这些能够描绘出它们所触及的周遭环境的图像。但是,这里不是借助让部分光线通过来形成一个可读图像的针孔相机,而是使用了一堆普通的杂物,它们会产生一副被扰乱(由于光传输)得无法识别的图像,这幅图像是影子和阴影的复杂交互。

你可以将这堆杂物视为一面镜子,为你提供周遭环境的经过扰乱的视图——举个例子,这能让你看见你无法直接看见的角落。

用到的算法

该团队的算法解决的难题是解析这些扰乱的结果,从而理解这些光线线索。具体来说,该算法的目标将隐藏场景中的活动恢复成人类可读的视频,这是光传输与隐藏视频的乘积。

但是,解析这些扰乱的线索实际上是一个经典的「先有鸡还是先有蛋」的问题。为了分析清楚扰乱的模式,用户需要已知隐藏视频;或者反过来,为了知道隐藏视频,用户需要已知扰乱的模式。

「从数学上看,这就像是如果我告诉你我脑子里悄悄想着两个数,而且它们的积是80。你能猜出它们是什么数吗?也许是40和2?或者是371.8和0.2152?在我们的问题中,每个像素都面临着类似的情况。」Aittala 说,「几乎任意隐藏视频都可用对应的扰动线索来解释,反过来也同样成立。如果我们让计算机选择,它只会做简单的工作,为我们提供一大堆看起来什么也不像的本质上是随机的图像。」

知道了这一点,该团队将研究重心放在了避免歧义性上,他们的做法是通过算法指定他们想要的一种对应于合理的真实世界影子和阴影的「扰乱」模式,从而恢复看起来有能一致运动的边缘和物体的隐藏视频。

该团队也利用了一个让人惊讶的事实,即神经网络自然地偏好表达「类图像」的内容,即使它们从未为此训练过也是如此,这有助于消除歧义。该算法会同时训练两个神经网络,它们都使用了一个名为深度图像先验(Deep Image Prior)的机器学习概念,仅为一个目标视频进行了特殊化处理。其中一个网络用于产生扰乱模式,另一个则用于估计隐藏视频。当这两个因子组合重现了杂物记录的视频时,这两个网络会获得奖励,从而驱使它们使用合理的隐藏数据来对观察进行解释。

为了测试该系统,该团队首先在一面墙前堆了一堆东西,然后在对面的墙上投射视频以及亲自在墙前面移动。基于此,他们能够重建出能让你对房间中隐藏区域所发生的运动有大概了解的视频。

该团队希望未来能提升该系统的整体分辨率,并最终在非受控环境中测试检验这项技术。

原文链接:https://news.mit.edu/2019/using-computers-view-unseen-computational-mirrors-mit-csail-1206

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注