斯坦福炒虾机器人爆火全网！华人团队花 22 万元打造，能做满汉全席还会洗碗

新智元报道

编辑：桃子好困

【新智元导读】今天，大家都被斯坦福华人团队的这个炒菜机器人刷屏了。仅用 50 个演示，就能让机器人完成各种复杂任务。最重要的是，打造成本 22 万，项目全部开源。

今天，会做一大桌子菜的斯坦福机器人 Mobile ALOHA 刷屏全网。

滑蛋虾仁、干贝烧鸡、蚝油生菜，色香味俱全，看着很诱人。

就拿滑蛋虾仁这道菜来说，Mobile ALOHA 在烧水的过程中先打上 3 颗鸡蛋，然后把虾仁放到水中焯熟，平底锅倒入鸡蛋液再加入虾仁，搅拌几下，一道菜完成了。

再看干贝烧鸡的制作过程。

首先，将去骨鸡腿肉煎至两面金黄，再加入干贝等调料之后，闷个 20 分钟即可。

最后摆盘时，再撒上一小撮葱花，完美。

至于蚝油生菜，机器人「大厨」的基操也是非常娴熟。

甚至，还能切蒜末。

网友看后纷纷表示，我们简直生活在未来！用不了多久快餐店做汉堡的工作要全面被机器人取代！

就连 Pytorch 之父称赞道，很酷的新家机器人平台，很高兴看到更多的工作在这个方向上！

这个由斯坦福三人团队研发的全新移动机器人 Mobile ALOHA，可以通过模仿学习，执行各种复杂的任务。

它不仅可以自主操作，还可以支持全身远程操控。

值得一提的是，机器人的成本仅为 32000 美元（约 22 万），甚至软件和硬件全部开源。

论文地址：https://mobile-aloha.github.io/ resources / mobile-aloha.pdf

研究人员每个任务只用了 50 个演示，便让 Mobile ALOHA 机器人始终如一地做一件事，比如连续 9 次擦拭洒在桌子上的葡萄酒，连续 5 次乘坐电梯。

它还可以在受干扰的情况下，把锅放入碗柜。即便是训练数据中看不到的椅子，也能够摆正。

50 个演示如何就让机器人拥有如此强大的学习能力？

作者解释关键在于，利用静态 ALOHA 数据共同训练模仿学习算法。这能持续提高性能，尤其是在需要精确操作的任务中。

再来看一波 Mobile ALOHA 炫酷的演示吧！

清洗平底锅：

和人击掌：

炒虾仁：

此外，还可以遥控 Mobile ALOHA 完成一些更加精细的工作。

比如把纸抽出来擦玻璃。

以及用笤帚扫地等等。

机器人元年强势开局

2024 年还没到来之前，许多大佬都在预测机器人便是今年除了大模型，另一件重要的研究领域。

没错，2024 年将会是机器人元年。

一般来说，开发通用机器人一个非常有前途的方法是，从人类提供的演示中进行模仿学习。

这种「行为克隆」可以让机器人学习各种原始的技能，从简单的拾放操作，到更精细的操作等等。

然而，现实生活中许多任务，都需要全身协调的机动性，以及灵巧操作，而非单独的移动或操作行为。

这篇论文中，作者研究了将「模仿学习」扩展到需要双臂移动机器人全身控制的任务可行性。

当前，有两个主要因素阻碍了「模仿学习」在双臂机器人移动操作中的广泛应用。

一是，缺乏即插即用的「全身远程操控硬件」。

如果购买现成的，双臂移动操作器成本会很高，比如 PR2 和 TIAGo 这样的机器人价格超过 20 万美元。为了在这些平台上实现远程操控，额外的硬件和校准也是必要的

二是，之前的机器人学习研究中，尚未证明对于复杂任务的高性能双臂移动操作。

在本文中，研究人员试图解决将「模仿学习」应用于双臂移动操作的挑战。

在硬件方面，作者引入了机器人 Mobile ALOHA，一个低成本的全身遥操作系统，用于收集双臂移动操作数据。

通过将其安装在轮式底座上，Mobile ALOHA 扩展了原始 ALOHA 的能力，即低成本和灵巧的双人木偶操纵设置。

然后，用户将身体栓在系统上，反向驱动轮子，以便底座移动。

当用户双手控制 ALOHA 时，底座可以独立移动。研究人员同时记录底座速度数据和手臂操纵数据，形成一个全身远程操控系统。

成本只需 3 万刀

值得一提的是，斯坦福团队在打造 Mobile ALOHA 的所有成本仅用了 3 万美元。

在具体的机器人设计中，它们综合考虑了四个关键的因素：

– 移动：系统的移动速度可与人类行走的速度相媲美，大约每秒 1.42 米。

– 稳定性：当操作重型家用物品，如锅和橱柜时，能够保持稳定。

– 全身远程操控：所有自由度都可以同时遥操作，包括手臂和移动底座。

– 不受束缚：机载电源和计算

如下图所示，可以清楚地看到 Mobile ALOHA 的技术规格。

Mobile ALOHA 有 2 个腕部摄像头，和 1 个顶部摄像头，并配有机载电源和计算。

另外，远程操作装置可以拆除，Mobile ALOHA 自主执行时只使用 2 个 ViperX 300。两只手臂的最低 / 最高高度分别为 65 厘米 / 200 厘米，并从底座伸出 100 厘米。

研究人员选择 AgileX Tracer AGV（Tracer）作为了移动底座，这是一个专为仓库物流设计的。

其移动速度可以达到 1.6m/s，接近人类的平均步行速度。它的最大有效载荷为 100 千克，高度为 17 毫米。

值得一提的是，Tracer 在美的售价为 7000 美元，比同等速度和有效载荷的 Clearpath 的 AGV 便宜 5 倍多。

然后，研究人员试图在 Tracer 移动底座和 ALOHA 机械臂的基础上设计一个全身远程操控系统，即一个可以同时控制底座和两个机械臂的远程操控系统。

而将操作员的腰部拴在移动底座上的设计是最简单直接的解决方案，这样可以反向驱动车轮，而车轮在扭矩关闭时摩擦力非常小。

为了改善人体工程学和扩大工作空间，团队还安装了 4 个 ALOHA 手臂都面向前，不同于原始面向内的 ALOHA 手臂。

此外，为了让 Mobile ALOHA 不受束缚，作者在底部配置了 1.26 千瓦时重 14 公斤的电池。同时还可以起到平衡作用，避免翻到。

在数据收集和推理过程中的所有计算都在一台消费级笔记本电脑上进行，该笔记本电脑配有 Nvidia 3070ti GPU （8gb VRAM）和 Intel i7-12800H。

以上便是 Mobile ALOHA 设计的重要组件。

一些开发细节

材料价格一览

有兴趣的小伙伴可以查看他们的官方文档：

https://docs.google.com/document/d/1_3yhWjodSNNYlpxkRCPIlvIAaQ76Nqk2wsqhnEVM6Dc/edit

协同学习，提升「模仿学习」性能

硬件得到了，接下来便是使用数据进行协同训练。

论文中，研究人员使用一个协同训练管道，利用现有的静态 ALOHA 数据集，以改善模仿学习在移动操作，特别是双手臂操作的性能。

静态 ALOHA 数据集总共有 825 个演示任务，包括密封袋子、拿起叉子、包装糖果、撕纸巾、打开带盖塑料杯、玩乒乓球、使用咖啡机、翻转铅笔、固定魔术贴电缆、装上电池和操作螺丝刀。

然后，研究人员选择了 7 个任务，让 Mobile ALOHA 去完成。

对于机器人需要清理洒在桌子上红酒的任务，需要机动性和双手灵活性。

具体来说，机器人需要首先导航到水龙头，拿起毛巾，然后导航回到桌子。

然后一只手臂举起酒杯，另一只手臂需要用毛巾擦拭桌子和杯底。这个任务在静态 ALOHA 中是不可能完成的，单臂移动机器人需要更多的时间来完成。

对于炒虾仁来说，机器人需要将一个生虾两面煎熟，然后把它放进碗里。

机动性和双手灵活性也是这项任务的必要条件：机器人需要从灶台移动到厨房台，用铲子翻动虾仁，而另一只手臂还需倾斜平底锅。

这项任务要求比擦酒精度更高，因为翻转半熟的虾需要更高的精度。

同样，对于清洗平底锅、收纳锅、乘坐电梯、推椅子、击掌的任务，Mobile ALOHA 也能熟练地完成。

下图是机器人在执行任务时的导航移动轨迹。

50 个演示，80%+ 成功率

实验评估中，研究人员主要为了回答两个核心问题：

（1）通过协同训练和少量移动操作数据，Mobile ALOHA 能否掌握复杂的移动操作技能？

（2）Mobile ALOHA 能否使用不同类型的模仿学习方法，包括 ACT、扩散策略和基于检索的 VINN？

研究发现，协同训练可以提高 ACT 性能。在 7 项具有挑战性的移动操作任务中，与静态 ALOHA 数据集进行协同训练可持续提高 ACT 的成功率。

这对于乘电梯时需要按键、清洗锅时需要打开水龙头，等子任务尤为重要，因为在这些任务中，精确操作是瓶颈所在。

另外，Mobile ALOHA 与「模仿学习」方法兼容。

带分块的 VINN、扩散策略和 ACT 在 Mobile ALOHA 上都取得了良好的性能，并且受益于与静态 ALOHA 的协同训练。

协同训练针对不同数据组合，其表现也是非常稳健。如下是使用 ACT 进行擦拭酒的任务训练后的成功率。

协同训练和预训练效果对比如下。协同训练在擦拭酒的任务中的表现，成功率 95%，大大优于预训练的成功率 40%。

另外，用户使用 Mobile ALOHA 远程操控未见过的任务时，可以迅速接近专家级速度。

总而言之，仅用 32000 美元的预算，通过静态 ALOHA 数据协同训练的模仿学习，Mobile ALOHA 只需要 20-50 个演示就能学会各种复杂的任务。

斯坦福 Mobile ALOHA 向所有人展示了机器人在各种应用场景的潜力，甚至机器人开源实现了人人可复刻。

网友表示，机器人学是一门既需要硬件又需要算法的系统研究。我猜在 2024 年，我们将在现实世界中看到越来越多的机器人。

作者介绍

Zipeng Fu（项目共同负责人）

Zipeng Fu 是斯坦福大学 AI 实验室的计算机科学博士生，导师是 Chelsea Finn。同时也在 Google DeepMind 担任学生研究员，与 Jie Tan 合作。

此前，他在卡内基梅隆大学（CMU）攻读机器学习领域的硕士学位，并在机器人学院（Robotics Institute）担任学生研究员，导师是 Deepak Pathak 和 Jitendra Malik。

他在加州大学洛杉矶分校（UCLA）获得了计算机科学与应用数学的学士学位，导师是 Song-Chun Zhu。

他的研究兴趣集中在机器人学、机器学习和计算机视觉的交汇处。并致力于研究在复杂多变的开放世界中实现稳定性能和可实际部署的机器人系统。

他的研究得到斯坦福研究生奖学金的支持，并且还是 Pierre 和 Christine Lamond 奖学金的获得者。

Tony Z. Zhao（项目共同负责人）

Tony Z. Zhao 是斯坦福大学的计算机科学博士生，导师是 Chelsea Finn。同时也在 Google DeepMind 担任兼职研究助理。

在此之前，他于 2021 年在加州大学伯克利分校（UCB）获得了电子与计算机科学（EECS）学士学位，导师是 Sergey Levine 和 Dan Klein。并曾在特斯拉 Autopilot 和谷歌 X Intrinsic 实习。

他的目标是使机器人能够完成复杂而精细的操控任务。

Chelsea Finn

Chelsea Finn 是斯坦福大学计算机科学与电气工程的助理教授。研究兴趣是机器人及其他智能体能够通过学习和互动来展现出的智能行为。

她的实验室 IRIS 致力于通过大规模的机器人互动研究智能，并且是 SAIL 和 ML Group 的合作实验室。同时，她也在 Google Brain 团队担任研究工作。

此前，她在加州大学伯克利分校（UCB）获得了计算机科学博士学位，并在麻省理工学院（MIT）取得了电气工程与计算机科学的学士学位。

参考资料：

https://mobile-aloha.github.io/

本文来自微信公众号：新智元（ID：AI_era）

Published by

风君子

独自遨游何稽首揭天掀地慰生平 View all posts by 风君子