基于深度强化学习的群体智能

编者寄语

群体智能是指多个智能体或者智能系统，通过交互和协作，共同解决复杂任务的分布式智能技术。以集群协作形式完成特定任务的群体智能系统已经广泛应用于交通、物流、工业、军事等领域，并且发挥着重要作用。

近年来，基于深度强化学习（Deep Reinforcement Learning）的群体智能协同将深度强化学习技术应用于多智能体系统，显著增强了智能体的自我学习与适应能力。深度强化学习技术使得智能体能够在不断试错的过程中自主进化，逐步学习最佳的协同策略，在提升多智能体系统的自主决策能力和协作效率方面展现出巨大的潜力。

尽管基于深度强化学习的群体智能决策取得了一定进展，但仍面临诸多挑战。在复杂的多智能体系统中，非平稳的环境、复杂的个体交互关系、庞大的群体规模、有限的奖励引导等因素都会导致群体决策的复杂度急剧上升，对算法的效率和可扩展性提出了严峻考验。本期内容聚焦该领域的最新进展及创新实践。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：刘璇 CCF普适计算专委常务委员湖南大学信息科学与工程学院教授

无人边缘群体智能技术利用多种无人移动平台（自动驾驶汽车、无人机、无人艇、无人船等）所携带的丰富的传感器对物联网类大数据进行采集，可以在智慧城市、紧急灾难救助、军事作战等诸多方面发挥重要的作用。与传统基于优化理论或博弈论的解决方案不同，本报告将探讨如何利用深度强化学习和时空数据特征提取技术调度多无人平台进行数据采集，以及面向大数据机器学习的边缘计算优化技术及隐私保护。

格式：

视频

强化学习求解大规模复杂博弈

安波,

近些年人工智能一些重要的突破（如德扑系统Libratus和安全博弈论）归功于大规模博弈求解技术在最近十年来的进展。然后博弈求解技术无法解决一些复杂的大规模博弈问题，学术界开始尝试将深度学习技术用来求解复杂博弈问题。报告将讨论近年来这个方向的重要进展以及面临的挑战。

格式：

视频

基于多智能体强化学习的群体智能协同策略

刘璇,

群体智能作为新一代人工智能重点发展的五大智能形态之一，在民事和军事领域都具有重要的应用前景。如何提升智能个体的自组织、自学习能力，提升群智协同决策效率，是未来面向复杂任务实现群体智能的关键问题。近年来兴起的多智能体强化学习已成为解决复杂环境下决策控制问题的重要技术途径之一，在无人机群控制、智能交通系统、智能工业机器人等场景中被广泛应用。

格式：

视频

近年来深度强化学习已经成为人工智能研究界最受关注的方向之一，尽管如此，深度强化学习算法总是有样本效率低、和真实环境交互有风险等问题，这阻碍着该技术广泛落地到现实应用的进程。从2020年开始，离线强化学习技术开始被学术界关注，并在近期获得了较快的发展。离线强化学习限制智能体在训练阶段只能基于给定的经验数据集，不能和真实环境有交互，由此最大限度地使用了经验数据，并避免了还未训练好的智能体和真实环境交互的风险。因此可以看出，离线强化学习的成功发展能够大大推进强化学习技术的落地。在本次报告中，我将介绍离线强化学习的问题定义和核心科学问题，讨论近年来学术界关于离线强化学习的研究进展和前沿探索课题。最后我将讨论离线强化学习大模型研究的最新进展和未来发展的趋势。

格式：

视频