English 日本語 Русский

多智能体强化学习平台:减小模拟到真实的差距

多智能体强化学习平台:减小模拟到真实的差距

客      户
北京航空航天大学
关  键 词
多智能体协同、强化学习、无人机集群、仿真
被捕捉物
无人机集群

在机器人强化学习领域,模拟到真实转移的问题一直是算法训练和部署中的一项挑战,尤其是对于需要大量数据样本的任务,例如大规模无人机群的协同控制。

北京航空航天大学研究团队所著论文《Air-M: A Visual Reality Many-agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System》提出了Air-M平台,通过NOKOV度量动作捕捉系统建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,使得策略网络可以使用虚拟代理进行训练,并无缝转移到真实的无人机上。

研究表明Air-M平台在训练效率和可转移性方面优于现有技术,使其成为一个有前景的无人机群应用平台。


引用格式

J. Lou, W. Wu, S. Liao and R. Shi, "Air-M: A Visual Reality Many-Agent Reinforcement Learning Platform for Large-Scale Aerial Unmanned System," 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Detroit, MI, USA, 2023, pp. 5598-5605, doi: 10.1109/IROS55552.2023.10341405.

平台架构

Air-M的架构、仿真环境和物理空间如下图所示。

Air-M的架构、仿真环境和物理空间

Air-M的主要组件,(a)-AirSim容器提供运动学和动力学模型,以及传感器数据,(b)-蓝图函数提供智能体之间的通信结构,(c)-运动捕捉系统检测到的标记点提供将现实世界映射到仿真环境的映射。

A.  AirSim容器化

研究团队使用Docker来封装AirSim服务器及其依赖,然后将它们打包为一个镜像。此外,将不同场景的静态网格编译为不可编辑的可执行文件,作为环境的背景。当用户启动一个容器时,AirSim将加载本地设置文件以生成指定数量的无人机,暴露端口并提供服务。

AirSim容器提供RPC服务器和串流服务

AirSim容器提供RPC服务器和串流服务

B.  虚幻引擎蓝图交互与通信

将AirSim容器中的载具映射到一个共享的仿真环境,并假设它们可以在有限范围内与这些对象进行通信。交互和通信机制通过UE4蓝图实现。

AirSim容器的可视化以及智能体之间的通信交互机制

AirSim容器的可视化以及智能体之间的通信交互机制


C.  物理实验测试平台

研究团队在室内设置一个3*1米的测试场地,按比例映射到仿真系统,通过NOKOV度量动作捕捉系统提供动作反馈,仿真无人机根据运动捕捉数据改变其位置,从而进行强化学习算法评估。

实验测试平台,包括外部定位系统、无人机控制系统和无人机本体

实验测试平台,包括外部定位系统、无人机控制系统和无人机本体


实验展示

为展示Air-M平台的多功能性,研究团队通过两个综合的训练示例体现其在无人机训练算法中的诸多优势。


任务一:协作搜索

目标是训练一群无人机在街道上寻找人群。无人机通过集中式信息进行离线训练,但在线以分散式方式执行任务。这个示例展示了一个经过训练的无人机群的协同行为。

协作搜索的训练场景为,四架无人机在中心生成,各自的任务区域事先大致安排好

协作搜索的训练场景为,四架无人机在中心生成,各自的任务区域事先大致安排好。




任务二:捉捕游戏

目标是使用20架训练过的蓝色无人机在规定的时间内找到并捉住20架红色无人机。当无人机发现目标时,它将其位置报告给指挥中心,切换到跟踪算法,并呼叫附近的友军进行协调捕捉。


NOKOV度量动作捕捉系统为研究提供无人机群高精度实时定位数据,帮助建立现实世界到仿真环境的映射,允许真实的无人机通过虚拟传感器与虚拟对象交互,助力大规模无人机群强化学习研究。

作者介绍

楼嘉彬,北京航空航天大学计算机学院博士研究生,主要研究方向:群体智能、多智能体强化学习和群体机器人。

吴文峻,北京航空航天大学,教授,博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。

廖书昊,北京航空航天大学计算机学院博士研究生,主要研究方向:多智能体强化学习和大模型。

石荣晔(通讯作者),北京航空航天大学,副教授。主要研究方向:领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。



仿生水下机器人推进机制研究:两种多连杆仿生方案的设计与验证 |东北大学储逸尘

东北大学储逸尘在 Biomimetics 及 JMSE 发表两项仿生水下机器人研究,以牛蛙后肢及牛鼻鲼胸鳍为灵感基于多连杆机构设计两种仿生水下推进机制,并通过水下动捕实验验证其运动学与推进性能。研究团队采用 NOKOV 度量动作捕捉系统用于获取真实生物及仿生机构在水下环境中的运动学数据,为仿生模型分析与实验验证提供数据支持。

具有矢量推进的全驱动六自由度跨介质机器人

北京航空航天大学文力老师团队在 IROS 2025 提出并验证了一种具有推力矢量的六自由度全驱动跨介质机器人。该机器人实现了空中与水下完整 6-DOF 独立控制,并可自主稳定跨越水空界面。在实物实验中,研究团队采用 NOKOV度量动作捕捉系统获取机器人位姿与运动轨迹数据,为全驱动运动验证与跨介质实验与空中传感器部署实验提供位置信息精确测量支持。

游戏开发中的马匹动作捕捉

客户使用NOKOV光学动作捕捉系统,实时采集马匹运动过程中标记点的位置信息,再通过动作捕捉系统处理数据,最终将运动数据传送至Unity或Motion Builder等三维软件中,用于游戏开发。

水下复杂环境鱼情探测

湛江湾实验室 利用主动式发光标记点和度量水下动捕系统,验证水下机器人性能。
联系我们
如需更多应用、案例信息或产品报价,请致电 010-64922321,或在下方留言:
机器人/无人机 VR/AR/XR 运动康复 传媒娱乐
北京度量科技有限公司(总部)
Location 北京市朝阳区安慧里四区15号五矿大厦8层820室
Email info@nokov.com
Phone 010-64922321
提交成功!请您耐心等待!
欢迎关注公众号,获取更多信息
关闭