强化学习:解锁决策大模型新纪元的智慧之钥 | YEF2024
扫描报名二维码:
(扫码报名)
强化学习,凭借其独特的试错与优化机制,与智能决策问题的需求天然契合,被视为开启决策大模型新纪元的智慧之钥。然而,随着大语言模型的迅猛发展,其高效的语言理解和生成能力赋予了智能决策系统卓越的信息处理和知识推理能力,使得基于大语言模型的智能决策成为研究焦点。
相比之下,基于强化学习的决策大模型研究尚处于初期探索阶段,面临诸多技术挑战。在复杂场景下,算法的效率与稳定性问题亟待攻克,模型的可解释性不足,决策逻辑难以直观展现,这在一定程度上制约了基于强化学习的决策大模型的发展。
为了深入推动决策智能体研究,探索以强化学习为驱动的决策大模型研究路径,本次论坛将聚焦“强化学习:解锁决策大模型新纪元的智慧之钥”主题,围绕该领域的最新研究成果、技术瓶颈及未来趋势展开深入交流。期望通过嘉宾与听众深入的研讨与思辨,促进强化学习与决策大模型的深度融合,为智能决策领域注入新的创新动力,引领未来技术的发展方向。
论坛安排
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 机器人系统的高效强化学习研究进展 | 徐昕 | 国防科技大学 |
2 | 大模型与强化学习融通演进的一些进展 | 俞扬 | 南京大学 |
3 | 知识增强大模型:垂域落地的最后一公里 | 王昊奋 | 同济大学 |
4 | 面向智能决策的强化学习与大模型智能体研究 | 张俊格 | 中国科学院自动化研究所 |
5 | 开放环境智能博弈及大模型思考 | 彭佩玺 | 北京大学 |
Panel环节 | 徐昕 | 国防科技大学 | |
俞扬 | 南京大学 | ||
王昊奋 | 同济大学 | ||
张俊格 | 中国科学院自动化研究所 | ||
彭佩玺 | 北京大学 |
执行主席
魏巍
CCF杰出会员
山西大学教授、计算机与信息技术学院(大数据学院)副院长
担任CCF人工智能与模式识别专委执委、大数据专委执委,曾任YOCSEF太原分论坛2022-2023年度主席。主要从事强化学习、表示学习等方面的研究,先后主持和参与国家重点研发计划项目、国家自然科学基金重点项目、国家自然科学基金面上项目、山西省自然科学基金项目10余项,在《IEEE TKDE》、《Machine Learning》、ICML、AAAI等重要学术期刊会议发表论文40余篇,获国家发明专利3项。
共同执行主席
郝建业
天津大学智算学部副教授
主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。主持国家科技部2030人工智能重大项目课题、基金委人工智能重大培育项目、国防科技创新重点项目课题等项目10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。
论坛讲者
徐昕
国防科技大学教授
国家杰青,中国自动化学会自适应动态规划与强化学习专业委员会副主任、机器人智能专业委员会顾问委员。主要从事智能无人系统的自主控制与机器学习等方面研究,获国家自然科学二等奖1项、湖南省自然科学一等奖2项,湖南省科技创新团队奖1项。主持国家自然科学基金重点项目、国家重点研发计划项目课题等20余项。出版专著2部,发表SCI论文100余篇,代表性论文发表在IEEE TNNLS, J. AI Research, J of Field Robotics, Automatica, IEEE TSMC:Systems, IEEE TPAMI等期刊以及CVPR, ICRA等国际会议。任IEEE Transactions on SMC: Systems, Information Sciences, IEEE Transactions on Intelligent Vehicles等国际期刊的Associate Editor,CAAI Transactions on Intelligence Technology副主编以及《控制理论与应用》编委。
报告题目:机器人系统的高效强化学习研究进展
摘要:
随着工业、医疗等领域对各类机器人和无人系统应用需求的增加,需要研究和探索复杂不确定环境中机器人系统优化决策与控制的高效强化学习理论和方法,减少对实际交互数据的依赖。报告在分析相关技术需求的基础上,介绍了模型抽象的深度强化学习、基于注意力特征表示的多智能体强化学习、在线学习预测控制与迁移强化学习的研究进展,以及在机器人抓取、智能车辆优化控制中应用的若干研究进展。最后对进一步的工作进行了分析和展望。
俞扬
CCF杰出会员
南京大学人工智能学院教授
主要从事强化学习的研究工作,工作获5项国际论文奖励和3项国际算法竞赛冠军。入选国家青年人才计划、2018 IEEE AI's 10 to Watch,获2018CCF-IEEE青年科学家奖、2018亚太数据挖掘“青年成就奖”,并受邀在国际人工智能联合大会IJCAI 2018上作“青年亮点报告”。
报告题目:大模型与强化学习融通演进的一些进展
摘要:
强化学习经过数十年的发展,为最优序列决策任务产生了许多理论认识和方法思想,这些成果对以序列模型为核心的大模型发展也可以起到重要作用,同时大模型拥有的丰富知识也能促进强化学习的泛化能力,因而两个领域正在在越来越多的相互融合。本次报告将从提高大模型可控性与提高策略模型泛化性的角度,汇报报告人近期的研究进展。
王昊奋
CCF术语工委副主任、自然语言处理专委会秘书长
同济大学特聘研究员
CCF上海分部秘书长、SIGKG主席,长期在一线人工智能公司担任CTO之职。他是全球最大的中文开放知识图谱联盟OpenKG发起人之一。他负责参与多项国家级AI相关项目,发表100余篇AI领域高水平论文,被引用次数达到3500余次,H-index达到29。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”;所构建的智能客服机器人已累计服务用户超过10亿人次。目前,他担任中国中文信息学会理事,语言与知识计算专委会副秘书长,上海市计算机学会自然语言处理专委会副主任,上海交通大学AI校友会秘书长等社会职位。
报告题目:知识增强大模型:垂域落地的最后一公里
摘要:
最近发展的大型语言模型在多项问题回答基准测试中展现出了与人类相似的性能。尽管如此,这些模型仍然面临一系列挑战,包括产生幻觉式错误、依赖过时信息、缺乏专业领域的深度知识、数据隐私保护以及参数化知识的内存效率等问题。通过采用知识增强技术,可以有效应对这些挑战,对于提升模型的准确性、时效性以及实用性至关重要。这里不仅详细介绍需要怎么样的知识,增强手段,还将系统阐述如何推动知识增强型大型模型在专业垂直领域的应用,实现技术在这些领域的深度融合和应用,达到“最后一公里”的突破。
张俊格
中国科学院自动化研究所研究员
中国科学院特聘核心岗位研究员,博士生导师,主要从事博弈智能、多智能体系统以及通用人工智能相关领域研究。2017年,张博士带领团队参与博弈决策智能国际顶级挑战赛AIIDE星际争霸AI,获得全球第四名,2018年再次参赛获得国际季军。张博士近3年以来带领团队研发的庙算兵棋AI和德州扑克AI均是业内顶尖水平,德州扑克AI DecisionHoldem已经开源。2021年获得中国图象图形学会自然科学二等奖,2023年获得中国指控学会科技进步一等奖。
报告题目:面向智能决策的强化学习与大模型智能体研究
摘要:
近来大语言模型在各领域展现出了智能决策的丰富潜力。使用了基于人类反馈的强化学习微调过后,大模型内丰富的世界知识能够指导智能体做出决策,甚至直接参与智能决策。本次报告将从强化学习微调大语言模型、大语言模型辅助下的强化学习以及大语言模型决策模型三个方面对基于强化学习与大模型的智能决策进行介绍,并探讨强化学习与大模型在面向智能决策任务中的协同演进关系与趋势。
彭佩玺
北京大学助理教授、研究员
鹏城实验室副研究员(双聘),研究领域为开放环境下的智能感知和决策,在IEEE TPAMI、IJCV等重要期刊和CCF-A类会议发表一作/通讯论文20余篇,承担了国自然青年/面上、科技委重点研发课题、广东省重点领域研发课题等十余项项目课题,多项成果在军民重要场景下实现落地应用,获得了第二届全国多智能体博弈对抗挑战赛同构赛道第一名和中国电子学会科技进步一等奖等奖励。
报告题目:开放环境智能博弈及大模型思考
摘要:
不同于游戏,现实博弈任务是一个复杂多样的开放环境,主要体现在:(1)参与单位不固定:传统博弈方法中类别独热编码难以满足开放条件下的博弈状态表示;(2)决策时机不明确:智能博弈系统需要在环境演化过程中实时判断出突发的异常事件作为博弈介入的时机,然而现实中绝大多数时刻都是常规情况,异常数据少甚至不存在;(3)对手策略难预知:博弈过程对手策略多样、欺骗性强,短期奖励反馈不存在甚至具有迷惑性,极大提升了博弈策略求解空间的复杂度,并导致了学习过程的非平稳性。本次报告分享了团队针对上述挑战取得的最新研究成果,并探讨大模型在智能博弈问题上的潜在应用。