近日,我室与上海交通大学联合培养的博士研究生马习文以第一作者在TOP期刊IEEE Transactions on Fuzzy Systems上发表了题为“Multilevel Distributed Fuzzy Optimum Policy Iteration Pareto-Nash Equilibrium Seeking of Multiagent Multiobjective General Sum Games”的研究论文,论文通讯作者为我室杨劲松研究员和上海交通大学张卫东教授。合作者还有上海交通大学谢威副教授、陈宏田副教授以及董博韬博士生。
为了解决复杂海洋无人系统群体协同作业中个体偏好量化、多目标冲突协调及群体策略收敛性的难题,本研究首次提出多层分布式模糊占优策略迭代(MDFOPI)算法以解决无人系统群体多目标协同决策中的帕累托-纳什均衡解(PNES),其核心思路是基于模糊最优隶属度,以策略空间为基础,结合模糊测度和λ均值分类构建耦合多目标最优矩阵;通过 MDFOPI 方法寻找均衡点,利用多目标最优隶属度矩阵(OMDM)组织采样数据并融合多目标评估结果。研究从理论上证明了MMGSG 中PNES的存在性和算法的稳定性与收敛性,且通过模拟实验验证了算法的有效性和实用性。
图1. 多智能体多目标一般和博弈场景展示(战略拦截)
本研究基于模糊逻辑与测度方法,通过模糊偏好量化、耦合OMDM构建及动态“状态”表征,突破传统方法刻画个体偏好与群体公平的刚性局限,克服了现有博弈模型受动态不确定性、合作-竞争复杂性及组合状态空间制约的缺陷,以及优化启发式算法缺乏均衡保证、学习算法难以捕捉个体-群体互动的不足。设计了“外循环博弈局势-内循环个体策略”双向迭代的MDFOPI架构,实现了模糊占优博弈模型与OMDM协同优化。
图2.MMGSG中PNES求解结果展示
本研究通过模糊博弈理论与MDFOPI算法,利用OMDM耦合个体与群体目标,实现了PNES的可证收敛求解,赋能海洋无人系统集群任务分配与跨域装备协作,突破了传统博弈论、学习算法在复杂环境下策略失效的瓶颈,可提升无人装备集群协同决策的效率与动态适应性。
图3. 与先进算法的对比结果
图4. 鲁棒性分析
本研究得到了国家重点研发计划项目(2022ZD0119900),国家自然科学基金项目(U2141234、42227901),上海市科技计划项目(22015810300和19510745200),浙江省自然科学基金(LR21D060002, LGF21D060002),海南省科技专项基金项目(ZDYF2024GXJS003),上海交通大学深蓝计划(SL2021ZD203),南方海洋科学与工程广东省实验室创新团队项目(311021004)的资助。
论文引用:X. W. Ma, W. Xie, B. T. Dong, J. S. Yang, H. T. Chen, W. D. Zhang. Multi-Level Distributed Fuzzy Optimum Policy Iteration Pareto-Nash Equilibrium Seeking of Multi-Agent Multi-Objective General Sum Games[J]. IEEE Trans. Fuzzy Syst. (early access).
文章链接:https://ieeexplore.ieee.org/document/11015781
© 2021卫星海洋环境监测预警全国重点实验室 版权所有.
浙ICP备10040255号-4 流量统计