Nvidia和斯坦福大学的研究人员提出了一种新的方法,将模拟训练的AI模型转移到现实世界的自主机器上。使用分段作为感知和控制之间的接口,机器人在抓取等工作负载中展现出"高成功率"。
仿真器在模型训练方面比现实世界有优势,因为它们很安全,几乎可以无限扩展。但是,将在模拟中学习到的策略概括到现实世界的机器上,无论是自主汽车、机器人还是无人机,都需要进行调整,因为即使是最精确的模拟器也无法考虑到每一个扰动。
Nvidia和斯坦福的技术有望比以前的方法更有效地弥合模拟和真实环境之间的差距,即因为它将视觉和控制任务分解成可以单独训练的模型。这通过利用仿真和真实环境之间的语义和几何差异的所谓特权信息,提高了性能,同时也使模型可以在其他机器人和场景中重复使用。
视觉模型是通过将在真实环境中拍摄的背景图像与模拟的前景物体合并后产生的数据进行训练的,它对相机图像进行处理,并以分割掩模的形式从环境中提取感兴趣的物体。这个分割掩模作为控制器模型的输入,控制器模型在仿真中使用模仿学习进行训练,并直接应用于真实环境中。
在涉及到真实世界的机器人手臂的实验中,研究人员最初对控制器进行了训练,每次迭代的1000帧的语料库(大致相当于10次抓握尝试),并在模拟物体的图像加上真实背景的图像上训练了视觉模型,他们从一个机器人手臂抓取球体的模拟演示中收集了数千张图像,然后将这些图像与背景结合起来,并对其形状、大小、位置、颜色、光照和相机视点进行随机化,得到了2万张训练图像。最后,他们通过在模拟中运行控制器,并将轨迹复制到真实环境中,用一组来自真实机器人的2140张图像对训练过的AI模块进行了评估。
给予机器人手臂250步,在5个固定位置抓取一个球体,并在每个位置重复抓取5次,跨越用于训练控制器的空间。当没有杂乱物时,它在使用视觉模块时,成功率达到了88%。杂乱(例如,黄色和橙色物体)导致机器人在5次试验中,有2次失败,但它往往能从失败的抓取尝试中恢复过来。
机器人的抓取是一个令人惊讶的挑战。例如,机器人在执行所谓的 "机械搜索 "时很难,这就是当它们必须从一堆其他物体中识别并捡起一个物体时,机器人就会挣扎着执行所谓的 "机械搜索"。大多数机器人的适应能力并不是特别强,而且目前还缺乏能力足够强的AI模型来指导机器人的手进行机械搜索。但如果这篇最新论文的共同作者的说法成立,那么更强大的系统可能会在地平线上出现。
