DeepMind助力Waymo!提升自动驾驶AI准确率，还能加快模型训练

　　鱼羊发自凹非寺
　　量子位报道公众号 QbitAI

　　在自动驾驶领域，谷歌 Waymo 无疑是标杆一样的存在。

　　现实世界中，Waymo 已经行驶了 1000 多万英里（约 1600 万公里），而在模拟驾驶中，行驶里程更是达到 100 亿英里。

　　作为第一家提供自动驾驶出租车服务的自动驾驶汽车公司，Waymo 早在去年 12 月，就落地美国亚利桑那州凤凰城。但历经大半年，Waymo One 仍未能开出凤凰城，商业化进展远不如公众预期。

　　商业化道路走得艰难，与技术进展息息相关，现在，DeepMind 也出手了。

　　强强联手

　　能够可靠引导无人驾驶汽车的 AI 模型需要无限次的测试和微调，对算力也有很高的要求。

　　为了提高 AI 算法训练的有效性和效率，Waymo 正在与 DeepMind 展开合作，DeepMind 在博文中提到，这次，他们受到了达尔文进化论的启发。

　　Waymo 的工程师解释，AI 算法通过反复测试实现自我提升，这一过程就是不断尝试并根据反馈进行调整。这样，模型的表现在很大程度上是取决于训练方案的。

　　找到最佳方案通常需要依靠研究人员和工程师丰富的经验。他们会精心挑选训练中的 AI 模型，剔除表现最差的模型并释放资源，从头开始训练新算法。

　　手动调整自然可以快速产生更好地结果，但这太过依靠人力了。

　　于是，DeepMind 设计了一种基于进化竞争（Population Based Training）的自动优化超参数的方法。

　　基于进化竞争

　　基于进化竞争，简称 PBT，结合了手动调整和随机搜索的优点。该方法从随机变量（超参数）开始，训练多个机器学习模型。

　　模型会被定期评估，并以进化的方式相互竞争，表现不佳的模型就会被“后代”（变量发生些许变化的表现更好的成员的副本）取代。

　　PBT 不需要从头开始重新训练，因为每个后代都会继承其父网络的状态，并且在整个训练过程中积极地更新超参数。

　　也就是说，PBT 能将大部分资源用于训练良好的超参数值。

　　但是，PBT 也并不完美。它倾向于优化当前的结果而不考虑长期效应，这不利于后期发力的 AI 模型。

　　DeepMind 的研究人员考虑到了这一点，他们为此训练了更多群体，并创建了称为利基（niches）的子群体，它们的算法仅允许它们进行内部竞争。最后，这个子群体通过提供更多独特模型在竞争中获得优势，这就鼓励了多样性。

　　成效如何

　　DeepMind 和 Waymo 将 PBT 应用于行人，自行车和摩托车驾驶员识别任务，目的是调查是否可以提高召回率（确定的障碍物在场景障碍物总数上的比例）和精度（检测到的障碍物的一部分实际上是障碍而不是误报）。

　　最终，他们试图训练单一的 AI 模型，以保持超过 99％的召回率，同时减少误报。

　　Waymo 报告说，这些实验为评估真实世界模型的鲁棒性提供了一个“现实的”框架，这反过来又为 PBT 算法的选择竞争提供了依据。

　　实验表明，进化竞争需要快速评估的支持，PBT 模型每 15 分钟就要评估一次。Google 数据中心的数百分布式机器的并行化使这一需求成为可能。

　　Waymo 还说，PBT 算法能够实现更高的精度，并且减少 24% 的误报，同时也能保持较高的召回率。

　　此外，PBT 所需的训练时间和计算资源仅为原来的一半。根据 Waymo 的说法， PBT 已被直接纳入 Waymo 的技术基础架构。

　　传送门

　　DeepMind 博客：

　　https://deepmind.com/blog/how-evolutionary-selection-can-train-more-capable-self-driving-cars/

　　作者系网易新闻·网易号“各有态度”签约作者

Published by