北京大学在多机器人安全协同控制研究中取得进展

作者：爱集微

2023-05-28

相关舆情

AI解读

生成海报

来源：北京大学

近日，人工智能研究院助理教授杨耀东及合作者在Artificial Intellgence Journal发表了题为“Safe multi-agent reinforcement learning for multi-robot control”的论文，提出了基于多智能体强化学习的多机器人决策安全性问题和相关算法以及Benchmarks，旨在解决多机器人协同控制中的安全问题。该研究为多机器人系统的安全控制提供了一种全新的解决方案，并为相关领域的发展作出了重要的贡献。

图1. 多机器人协作完成焊接任务

图2. 多车协作完成自动驾驶避让

目前，多机器人系统已经广泛应用于各种领域，包括工业自动化、物流配送、救援任务等。然而，多机器人系统的控制仍存在一些困难和挑战，如机器人之间的相互作用、动态环境变化等，这些都给多机器人系统的安全控制带来了很大的难度。安全一直是机器人系统开发中的长期追求。在本研究中，研究人员采用安全强化学习解决机器人安全控制问题。在安全强化学习中，约束马尔可夫决策过程通常用于描述安全控制问题。在每个决策步骤中，环境都会产生决策的回报和成本，每个机器人需要在最大限度地提高奖励性能的同时，避免违反安全约束。然而，在现实世界中安全地协同控制多个机器人是一个具有挑战性的问题。更具体地说，需要确保每个机器人在非稳定的环境中尽可能好地完成任务（比如，奖励值越大越好），并且保证每个机器人的安全。例如，在图1中，多个工业机器人如何安全地协作完成焊接任务；在图2中，多个自动驾驶汽车如何安全地协作完成自动驾驶避让。

针对上述问题，本研究团队研究了多机器人协同控制的安全问题，并采用了基于多智能体强化学习的方法来解决。在这个问题中，每个机器人需要满足自己的安全约束，同时最大化其奖励，还必须考虑其他机器人的安全约束以保证整个机器人集群的安全性。

为实现上述目标，研究者首先将问题描述为带安全约束的马尔可夫博弈（图3），并采用策略优化理论来实现带安全约束的策略更新。在这个方法中，所有智能体都需要协作以最大化奖励值，并同时考虑安全约束。通过带安全约束的策略优化，研究者所提出的方法能够保证在每次算法迭代时满足安全约束，同时实现奖励值的单调上升。根据研究者提出的安全引理表明，当所有智能体的策略变化都足够小时，每个智能体都可以通过只考虑其自身的代理回报和代理成本来学习更好的策略。

图3. 带安全约束的马尔可夫博弈过程示意图

其次，基于本研究提出的安全引理、多智能体强化学习优势函数分解理论和顺序更新范式（图4），作为理论解的近似，研究者提出了两种安全的多智能体策略优化算法：多智能体的约束策略优化算法和多智能体近似策略优化的拉格朗日算法。我们利用神经网络来参数化智能体的策略，并分别基于线性搜索和拉格朗日优化算法来搜索安全策略，以此作为理论解的近似。