在机器人强化学习领域,模拟到真实转移的问题一直是算法训练和部署中的一项挑战,尤其是对于需要大量数据样本的任务,例如大规模无人机群的协同控制。
北京航空航天大学研究团队所著论文《Air-M: A Visual Reality Many-agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System》提出了Air-M平台,通过NOKOV度量动作捕捉系统建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,使得策略网络可以使用虚拟代理进行训练,并无缝转移到真实的无人机上。
研究表明Air-M平台在训练效率和可转移性方面优于现有技术,使其成为一个有前景的无人机群应用平台。
引用格式
J. Lou, W. Wu, S. Liao and R. Shi, "Air-M: A Visual Reality Many-Agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System," 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Detroit, MI, USA, 2023, pp. 5598-5605, doi: 10.1109/IROS55552.2023.10341405.
平台架构
Air-M的架构、仿真环境和物理空间如下图所示。
Air-M的主要组件,(a)-AirSim容器提供运动学和动力学模型,以及传感器数据,(b)-蓝图函数提供智能体之间的通信结构,(c)-运动捕捉系统检测到的标记点提供将现实世界映射到仿真环境的映射。
A. AirSim容器化
研究团队使用Docker来封装AirSim服务器及其依赖,然后将它们打包为一个镜像。此外,将不同场景的静态网格编译为不可编辑的可执行文件,作为环境的背景。当用户启动一个容器时,AirSim将加载本地设置文件以生成指定数量的无人机,暴露端口并提供服务。
AirSim容器提供RPC服务器和串流服务
B. 虚幻引擎蓝图交互与通信
将AirSim容器中的载具映射到一个共享的仿真环境,并假设它们可以在有限范围内与这些对象进行通信。交互和通信机制通过UE4蓝图实现。
AirSim容器的可视化以及智能体之间的通信交互机制
C. 物理实验测试平台
研究团队在室内设置一个3*1米的测试场地,按比例映射到仿真系统,通过NOKOV度量动作捕捉系统提供动作反馈,仿真无人机根据运动捕捉数据改变其位置,从而进行强化学习算法评估。
实验测试平台,包括外部定位系统、无人机控制系统和无人机本体
实验展示
为展示Air-M平台的多功能性,研究团队通过两个综合的训练示例体现其在无人机训练算法中的诸多优势。
任务一:协作搜索
目标是训练一群无人机在街道上寻找人群。无人机通过集中式信息进行离线训练,但在线以分散式方式执行任务。这个示例展示了一个经过训练的无人机群的协同行为。
协作搜索的训练场景为,四架无人机在中心生成,各自的任务区域事先大致安排好。
任务二:捉捕游戏
目标是使用20架训练过的蓝色无人机在规定的时间内找到并捉住20架红色无人机。当无人机发现目标时,它将其位置报告给指挥中心,切换到跟踪算法,并呼叫附近的友军进行协调捕捉。
NOKOV度量动作捕捉系统为研究提供无人机群高精度实时定位数据,帮助建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,助力大规模无人机群强化学习研究。
作者介绍
楼嘉彬,北京航空航天大学计算机学院博士研究生,主要研究方向:群体智能、多智能体强化学习和群体机器人。
吴文峻,北京航空航天大学,教授,博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。
廖书昊,北京航空航天大学计算机学院博士研究生,主要研究方向:多智能体强化学习和大模型。
石荣晔(通讯作者),北京航空航天大学,副教授。主要研究方向:领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。
更多详情,请留言
-
您可致电010-64922321或在右侧留言,获取您专属的动作捕捉解决方案与报价单
-
- 领域 *
- 提交留言