来源:Quantamagazine
【新智元导读】卷积神经网络(CNN)已在平面视觉任务上大显身手,但遇见不规则曲面,其效果往往大打折扣。高通和阿姆斯特丹大学提出的“规范等变卷积神经网络”成功突破了平面的限制,将 CNN 的视觉能力提升了一个维度,让 AI 站的更高,看得更远。
现在,计算机可以驾驶汽车,在象棋和围棋中击败世界冠军,甚至撰写散文。人工智能的革命很大程度上源于一种特殊类型的人工神经网络的力量,其设计灵感来自哺乳动物视觉皮层中神经元的连接层。事实证明,这些“卷积神经网络”(CNN)擅长于学习二维数据中的模式,尤其是在计算机视觉任务中得到了广泛应用。
但是,如果将卷积神经网络用于没有内置平面几何形状的数据集(如 3D 计算机动画中使用的不规则形状的模型,或者自动驾驶汽车生成的点云来绘制周围环境),这种强大的机器学习架构的效果就要受到影响。2016 年前后,出现了一种称为几何深度学习的新学科,其目标是将 CNN 拓展到平面之外。
现在,研究人员提供了一个新的理论框架,可用于构建可以学习任何几何表面上的图案的神经网络。由阿姆斯特丹大学和高通 AI 研究中心的 Taco Cohen,Maurice Weiler,Berkay Kicanaoglu 和 Max Welling 开发的“等规卷积神经网络”,不仅可以检测 2D 像素阵列中的模式,而且还可以检测在球体和不对称弯曲的物体上的模式。Welling 表示:“这个框架是对曲面上深度学习问题的绝对确定的答案。”
在模拟全球气候数据的学习模式中,这种新架构的性能已大大超过了其前辈。该算法还可能改善可视 3D 目标的无人机和无人驾驶汽车的视觉效果,对于心脏、大脑或其他器官的不规则曲面上收集的数据,分析能力也能大为提升。
高通公司和阿姆斯特丹大学的机器学习研究员 Taco Cohen 是规范等变卷积神经网络的主要设计者之一
研究人员要让深度学习模型摆脱平面的束缚,也与物理学有着深厚的联系。描述世界的物理理论,比如爱因斯坦的广义相对论和粒子物理学的标准模型,都表现出一种称为“规范等变”的性质。这意味着世界上的量及其关系不依赖于任意的参照系。
无论观察者是移动还是静止不动,无论标尺上的数字有什么不同,这些量和关系都是一致的。在不同的量度上进行的测量要想进行转换,必须要能够相互保留彼此之间这些不变的潜在关系。
举个例子,测量一个足球场的长度,首先以码为单位,然后再以米为单位进行测量,得到的数字是不同的,但这是一种可预测的不同。同样,两位摄影师从两个不同的有利位置拍摄同一个对象的照片会产生不同的图像,但是这些图像可以彼此关联。量表的等方差可确保物理学家的现实模型保持一致,无论他们的观测点或测量单位如何变化。
纽约大学物理学家凯尔·克兰默(Kyle Cranmer)说:“他们希望将这种思想其、引入神经网络,要将机器学习应用于粒子物理学数据上,而且成功实现了。”
一、规范等变卷积神经网络:“逃离平面,看懂 3D”
伦敦帝国理工学院的计算机科学家迈克尔·布朗斯坦(Michael Bronstein)在 2015 年提出“几何深度学习”一词,用以描述为神经网络摆脱平面束缚而进行的新努力,并设计了可以学习非平面数据模式的神经网络。这个词和相关研究工作很快流行起来。
Bronstein 明白,要想超越欧几里德平面,需要重新构想一种基本的计算程序,该程序首先使神经网络能高效实现 2D 图像识别。此过程称为“卷积”,它使神经网络的一层对输入数据一小批执行数学运算,然后将结果传递到网络中的下一层。
“基本上可以将卷积视为滑动的窗口,” Bronstein 解释说。卷积神经网络将许多这些“窗口”滑动到数据上,例如过滤器,每一个都旨在检测数据中的某种模式。如果是猫的照片,经过训练的 CNN 可能会使用过滤器来检测原始输入像素中的低级特征,例如边缘。
这些特征会传递到网络中的其他层,执行其他卷积,并提取更高层的特征,如眼睛,尾巴或三角形的耳朵。用于识别猫的 CNN 最终将使用这些分层卷积的结果,为整个图像分配标签(“是猫”或“不是猫”)。
但这种方法仅适用于平面。韦林说:“如果要分析的表面是弯曲的,那么基本上会遇到麻烦。”
在曲面上进行卷积(在几何学上称为“流形”),就像在地球上拿着一小块半透明的方格纸,然后试图准确地追踪格陵兰岛的海岸线一样困难。不可能在不使纸张起皱的情况下,将正方形按在格陵兰岛上,也就是说,当再次把这张纸展平时,图形将会出现变形。
如果流形不是球形的这样的整齐球体,而是瓶子的形状,或是折叠的蛋白质等更复杂、更不规则的物体,则在这些目标上进行卷积操作会变得更加困难。
Bronstein 等人在 2015 年找到了解决非欧流形上卷积问题的一种解决方案:将“滑动窗口”重新想象成更像是圆形蜘蛛网状,而不是一张方格纸,这样就可以将其压在地球上(或任何曲面上),而不会造成“窗口”的弯曲、拉伸或撕裂。
以这种方式更改“滑块”过滤器的属性,可以让 CNN 能够更好地“理解”某些几何关系。比如可以自动识别出弯成两个不同姿势的 3D 形状(一个站直的人,和一个抬起一条腿的人)是同一类对象实例,而不是两个完全不同的对象。这一变化让神经网络的学习效率大大提高。Bronstein 说,标准的 CNN“需要花数周时间进行训练,使用数百万个形状示例,我们以不同的姿势使用了大约 100 种形状,只需要大约半小时的训练。”
同时,塔科·科恩(Taco Cohen)等人开始从相反方向着手解决同一问题。2015 年,当时还在读研究生的科恩尚未研究这个问题。当时他对一个实际的工程问题很感兴趣:提升数据效率,即如何用更少的示例来训练神经网络。
科恩说:“深度学习是一种非常缓慢的学习。”如果要训练 CNN 来识别猫,那么几乎没什么问题,因为网络上有大量的猫的图像数据。但是,如果想让 CNN 检测更重要的内容,例如肺组织图像中的癌性结节,那么找到足够的训练数据(需要医学上准确、正确标记,并且没有隐私问题)并非易事。训练神经网络所需的数据示例越少越好。
Cohen 知道,提高神经网络数据效率的一种方法是,预先为数据配备某些假设条件,例如告诉神经网络,即使肺肿瘤在图像中出现旋转或映射,它仍然是肺肿瘤。
2016 年,Cohen 和 Welling 合写了一篇论文,定义了如何将其中的一些假设条件编码为几何对称的神经网络。这种方法效果非常好,到 2018 年,Cohen 和 Marysia Winkels 进一步推广了该方法,证明了在 CT 扫描中识别肺癌的可喜结果:他们构建的神经网络模型,仅使用之前模型十分之一训练数据,就能识别出肺癌的可视化证据。
在此基础上,研究人员不断推广,找到了规范等变卷积神经网络。
二、从物理学到 CNN:“等变”思想的扩展
物理和机器学习具有基本的相似性。正如 Cohen(Cohen)所说:“两个领域都涉及进行观测,然后建立模型进行预测。”并非单个事物的模型,而是整个品类的模型。例如,我们不会为头朝上的氢原子建一个模型、头朝下的氢原子再建一个。
等变(或“协变”,物理学家偏爱的术语)是自爱因斯坦以来,物理学家赖以推广其模型的假设。
阿姆斯特丹大学的理论物理学家 Miranda Cheng 解释说:“这只是意味着,如果你正确的描述了物理,那么它应该不取决于你用的哪种‘尺子’、后者你观察时候的视角。”
Cheng(上图)和 Cohen 等撰写了一篇论文,探讨了物理学与规范等变 CNN 之间的联系。
就像爱因斯坦本人在 1916 年所说的那样:“自然的一般定律应由对所有坐标系都适用的方程式表示。”
卷积网络通过利用该原理的一个简单示例“平移等变”,成为深度学习中最成功的方法之一。一个窗口过滤器检测图像中特定特征(例如垂直边缘),将滑动(或“平移”)在像素平面上,并对所有这些垂直边缘的位置进行编码;然后,它会创建一个标记这些位置的“功能图”,并将其传递到网络的下一层。
由于平移等变,使得创建特征图成为可能。神经网络“假定”同一特征可以出现在 2D 平面中的任何位置,并且能够将无论是在右上角还是在左下角的垂直边缘,都识别为垂直边缘。
Weiler 说:“关于等变神经网络的观点是[采用]这些明显的对称性并将它们放入网络体系结构中,有点像免费午餐。”
到 2018 年,Weiler,Cohen 及其博士导师 Max Welling 扩大了“免费午餐”的范围,将其他等变包括在内。他们的“集群等变” CNN 可以检测平面图像中的旋转或反射特征,而无需针对这些方向上的特征训练特定示例;球形 CNN 可以根据球体表面上的数据创建特征图,而不会将其扭曲为平面投影。
这些方法仍然不够通用,无法处理具有颠簸,不规则结构的流形上的数据,该数据描述了从土豆到蛋白质,到人体,到时空弯曲的几乎所有物体的几何形状。
对于神经网络,这些类型的流形没有“全局”对称性来做出以下等变假设:它们上的每个位置都是不同的。
挑战在于,将细分过滤器在表面上滑动会改变过滤器的方向,具体取决于其采用的特定路径。
想象一下设计用于检测简单图案的过滤器:深色斑点在左,浅色在右。在平面网格上下左右滑动它,它将始终保持右边朝上。但是,即使在球体的表面上,这种情况也会改变。
将滤镜围绕球面的赤道移动 180 度,则滤镜的方向将保持不变:深色斑点在左,浅色斑点在右。但如果通过球体的北极上方移过,滤镜就反过来了,深右浅左。在更复杂的歧管上移动过滤器,它最终可能指向许多双重的方向。幸运的是,自爱因斯坦以来的物理学家找到了解决方案:轨距等变。
Welling 解释说,关键是忘记跟踪过滤器沿不同路径移动时方向如何变化。取而代之的是,只选择一个过滤器方向(或 gauge),然后定义一种将所有其他方向转换为该方向的一致方法。
要注意的是,尽管可以在初始方向上使用任意量度,但将其他量度转换为该参考系必须保留的基本模式。Weiler 说,采用这种等量变方法,“实际数字发生了变化,但是它们以完全可预测的方式发生了变化。”
Cohen,Weiler 和 Welling 在 2019 年将 gauge-equivariant(最终的“免费午餐”)编码到了他们的卷积神经网络中。通过将数学约束纳入神经网络可以通过卷积在数据中“看到”。
Welling 说:“基本上,它可以提供任何表面”,从欧几里德平面到任意弯曲的物体,包括诸如 Klein 瓶或四维时空的奇异流形,“这对在该表面上进行深度学习非常有用。”
三、理论起源:来自爱因斯坦的启示
规范等变 CNN 的起源理论非常广泛,沿用了以前的几何深度学习方法的内在假设,如旋转等变和球上的移位过滤器。即使是 Michael Bronstein 的早期方法,也可以让神经网络识别弯曲成不同姿势的单个 3D 形状。“Gauge-equivariant 是一个非常广泛的框架。它包含了我们在 2015 年所做的特定设置。” Bronstein 说。
理论上,CNN 计可在任何尺寸的任何曲面上工作,但 Cohen 及其合作者已在全球气候数据上对其进行了测试,该数据必定具有潜在的 3D 球形结构。他们使用等量线框架构造了一个 CNN,该 CNN 经过训练可以从气候模拟数据中检测出极端天气模式,例如热带气旋。
2017 年,政府和学术研究人员使用标准卷积网络以 74% 的准确性检测数据中的气旋特征;去年,美国有线电视新闻网(CNN)探测到旋风的准确率达到 97.9%。(优于 2018 年专门为球体设计的不太通用的几何深度学习方法,该系统的准确度为 94%。)Lawrence Berkeley National Laboratory 的气候科学家 Mayur Mudigonda 使用深度学习,表示将继续关注测量 CNN。
他说:“人类视觉智能的这一方面”(无论模式如何定向)都可以准确地识别出来,“这就是我们想要转化为气候社区的东西。”
高通是一家芯片制造商,最近雇用了 Cohen 和 Welling,并收购了他们建立的一家初创公司,将其早期工作纳入等变神经网络。现在,高通正计划应用规范 CNN 理论来开发改进的计算机视觉应用,例如可以直接“看到”360 度全景的无人机,就像全球气候数据一样,可以将这个世界的鱼眼图自然地映射到球形表面上。
同时,规范的 CNN 在诸如 Cranmer 之类的物理学家中越来越受欢迎,他们计划将其用于处理亚原子粒子相互作用的模拟数据。Cranmer 说:“我们正在分析与强大的核力量有关的数据,试图了解质子内部发生了什么。”他说,数据是四维的,“因此,对于具有这种规范等变的神经网络,这是一个完美的应用实例。”
前物理学家 Risi Kondor 现在正在研究等变神经网络,他说,规范 CNN 的潜在科学应用可能比其在 AI 中的应用更为重要。
他说:“如果在 YouTube 上即使发现自己不太擅长识别上下颠倒的猫,也许可以忍受。”但是对于物理学家来说,至关重要的是要确保神经网络不会因为其特定的方向而错误地识别力场或粒子轨迹。Kondor 说:“这不仅仅是方便的问题,而且必须尊重基本的对称性。”
但是,尽管物理学家的数学方法启发了人们对 CNN 的了解,物理学家可能会为它们找到很多用处,但 Cohen 指出,这些神经网络本身并不会发现任何新的物理学。
他说:“我们现在能够设计处理非常奇特的数据的网络,但必须知道该数据的结构是什么。”换句话说,物理学家之所以可以使用规范的 CNN 是因为爱因斯坦已经证明时空可以表示为四维弯曲流形。
Cohen 的神经网络将无法独自“看到”该结构。他说:“目前还没开始做学习对称性的事情,”尽管他希望将来有可能。
Cohen 说:“我一直感觉机器学习和物理学正在做非常相似的事情。这是我发现真正不可思议的事情之一:我们只是从这个工程问题开始,并且随着我们开始改进,我们逐渐发现了越来越多的联系。”