人工智能(AI)再次战胜了人类冠军。
这一次,是在无人机竞速领域。 来自苏黎世大学机器人与感知研究组(Robotics and Perception Group)的 Elia Kaufmann 博士团队及其英特尔团队联合设计了一种自动驾驶系统——Swift,该系统驾驶无人机的能力可在一对一冠军赛中战胜人类对手。
这一重磅研究成果,刚刚以封面文章的形式发表在了最新一期的Nature杂志上。
在一篇同期发表在 Nature 上的新闻与观点文章中,荷兰代尔夫特理工大学的研究院 Guido de Croon 教授写道,“Kaufmann 等人的研究是机器人学家克服现实差距的一个很好的案例。尽管 Swift 使用 AI 学习技术和传统工程算法的巧妙组合进行训练,但该系统应该在一个更真实多变的环境中进一步开发,从而充分释放这项技术的潜力。”
尽管如此,研究团队表示,该研究标志着移动机器人学和机器智能的一个里程碑,或可启发在其他物理系统中部署基于混合学习的解决方案,如自动驾驶的地面车辆、飞行器和个人机器人。
融合 AI 与工程算法的智能训练
当前,基于深度强化学习的人工智能(AI)系统在雅达利(Atari)游戏、国际象棋、《星际争霸》和 GT 赛车(Gran Turismo)等游戏中已经超越了人类冠军。然而,这些成就全部发生在虚拟环境中,而非真实世界中。
无人机竞速对经验飞行员和 AI 都具挑战,但 AI 而言,更具挑战性。因为在虚拟环境中,资源几乎是无限的,而转向现实世界意味着必须使用有限的资源。对于无人机来说,情况尤为如此,因为取代人类飞行员的传感器和计算设备必须被搭载到空中。
另外,现实世界比虚拟世界更加不可预测。虽然模拟的比赛无人机可以按照预先编程的轨迹完美地行驶,但对一个无人机发出的单一指令可能产生多种效果,影响难以预测,对于通过 AI 训练的无人机尤为复杂。 传统的端到端学习方法难以将虚拟环境的映射转移到现实世界,虚拟和现实两者之间存在着现实差距,而现实差距构成了机器人领域中主要的挑战之一。
在该研究中,Swift 系统通过将 AI 学习技术与传统工程算法融合,实现了智能训练。首先,该系统通过人工神经网络处理无人机从相机中获取的图像,从而精准地检测到门的角落。然后,利用双目视觉软件用来计算无人机的速度。
Swift 系统的创新之处在于另一个人工神经网络,将无人机的状态映射到调整推力和旋转速率的命令。利用强化学习,通过模拟中的试错过程来优化从环境中获得的奖励。在这个算法中,该系统采用了强化学习,而非端到端学习,从而可以通过抽象概念来弥合现实与模拟之间的差距。
由于状态编码的抽象层次高于原始图像,强化学习模拟器不再需要复杂的视觉环境。这一优化减少了模拟系统与真实系统之间的差异,提升了模拟速度,使得系统能够在大约50 分钟内完成学习。