ADL120《深度强化学习》开始报名

阅读量:344 2021-09-16 收藏本文

本期CCF学科前沿讲习班《深度强化学习》，邀请到了本领域10位来自于著名高校与企业的重量级专家学者做主题报告。他们将对强化学习多个方面的最新进展进行深入浅出的讲解，对强化学习的基础算法、深度强化学习算法、多智能体强化学习、基于强化学习的博弈、强化学习训练系统、以及强化学习在机器人和共享出行中的应用进行系统性介绍，帮助学员理解强化学习任务的基本概念，主要思想，以及面临的挑战，掌握该领域包括单智能体、多智能体和博弈强化学习的一系列前沿技术，并通过实际案例了解强化学习的应用前景，开阔科研视野，增强实践能力。

学术主任：俞扬南京大学

主办单位：中国计算机学会

活动日程：

2021年10月15日（周五）
8:50-9:00	开班仪式
9:00-9:15	全体合影
9:15-10:45	专题讲座1：强化学习的特征表示与算法设计徐昕国防科技大学
10:45-11:00	休息
11:00-12:30	专题讲座2：智能决策与多智能体强化学习高阳南京大学
12:30-14:00	午餐
14:00-15:30	专题讲座3：从捉迷藏游戏谈起 (The Hide-and-Seek Game and Beyond) 吴翼清华大学
15:30-15:45	休息
15:45-17:15	专题讲座4：单智能体强化学习章宗长南京大学

2021年10月16日（周六）
9:00-12:15 (中间休息15分钟)	专题讲座5：基于模型的强化学习张伟楠上海交通大学
12:15-13:30	午餐
13:30-16:45 (中间休息15分钟)	专题讲座6：多智能体深度强化学习张崇洁清华大学

2021年10月17日（周日）
9:00-10:30	专题讲座7：智能体的博弈与强化学习张海峰中科院自动化所
10:30-10:45	休息
10:45-12:15	专题讲座8：机器人强化学习的理论、挑战和应用吴锋中国科技大学
12:15-13:30	午餐
13:30-15:00	专题讲座9：大规模深度强化学习训练系统：从单智能体到多智能体温颖上海交通大学
15:00-15:15	休息
15:15-16:45	专题讲座10：强化学习在共享出行中的应用 Zhiwei (Tony) Qin 滴滴AI Labs
16:45-17:00	小结

特邀讲者：

徐昕 国防科技大学

讲者简介：徐昕，国防科技大学智能科学学院智能科学技术系主任，教授，博士生导师，国家杰出青年科学基金获得者。1996年于国防科技大学自动控制系获学士学位，2002年于国防科技大学机电工程与自动化学院获控制科学与工程博士学位。先后赴加拿大Alberta大学、英国Strathclyde大学、加拿大Guelph大学、俄罗斯科学院信息与自动化研究所、香港理工大学等高校和研究机构开展访问和合作研究。主要研究领域是机器人和智能无人系统的机器学习与自主控制。获霍英东青年教师基金资助，入选新世纪优秀人才支持计划，任中国人工智能学会理事、青年工作委员会副主任，中国指挥与控制学会指挥控制网络专业委员会副主任，IEEE高级会员。获国家自然科学二等奖1项、湖南省自然科学一等奖2项、国防科技进步二等奖以及湖南省自然科学优秀论文一等奖各1项。主持国家自然科学基金重点项目2项、973课题等国家和省部级项目10余项。出版专著2部，在IEEE TNNLS, IEEE TCST, IEEE TITS, IEEE TPAMI, IEEE T-Cybernetics等期刊和会议发表论文150余篇，SCI收录70余篇，他引4000余次。受邀在IEEE International Symposium on Intelligent Vehicles, IEEE International Conference on Unmanned Systems等国内外重要学术会议作大会特邀报告。任Information Sciences, IEEE Transactions on System, Man, and Cybernetics: Systems, International Journal of Robotics and Automation, International Journal of Adaptive Control and Signal Processing等6个国际SCI期刊的Associate Editor或者Guest Editor，CAAI Transactions on Intelligence Technology副主编以及《自动化学报》编委。

报告题目：强化学习的特征表示与算法设计

报告摘要：报告分析了强化学习在求解大规模序贯优化决策问题时面临的理论和技术难点，阐述了强化学习在特征表示理论和方法方面的主要研究思路和进展，包括线性特征构造、流形特征学习、深度特征学习等，结合不同的特征表示和学习问题，介绍和讨论了强化学习算法设计的研究进展，包括TD学习预测、值迭代、策略迭代和Actor-Critic算法等。最后对有关应用和发展趋势进行了介绍和分析。

高阳 南京大学

讲者简介：高阳博士，教授，博导。1972年生，江苏淮阴人。2000年3月从南京大学计算机科学与技术系博士研究生毕业。目前任南京大学计算机系副主任，人工智能教研室（和实验室）副主任，是南京大学计算机科学与技术系国家自然科学基金创新群体成员，2006年当选为南京大学青年骨干教师，2008年当选为南京大学中青年学术带头人，2008年入选江苏省青蓝工程青年骨干教师培养计划，2009年入选江苏省"333高层次人才培养工程"第二批中青年科学技术带头人，2009年获江苏省"六大人才高峰计划"B类项目资助，2010年入选教育部新世纪优秀人才计划。高阳博士从1997年开始从事大数据、人工智能、机器学习、多Agent系统、图像和视频分析等方向的学术研究。参加过多项国家、省部级科研项目的研究工作。作为第一负责人主持国家自然科学基金重点项目一项，国家自然科学基金面上项目三项，青年项目一项。主持科技部国际合作专项一项，江苏省自然科学基金重点项目（江苏省973项目）一项。参加国家重大科技专项核高基项目一项、国家973重点研究计划二项、国家杰出青年基金研究各一项。基于所研究成果，在国际杂志、国际会议和国内一级刊物上发表学术论文数100余篇。获授权专利10项，国际PCT专利1项。高阳博士目前担任中国人工智能学会理事，中国人工智能学会粗糙集与软计算专业委员会副主任，中国人工智能学会机器学习专业委员会秘书长，中国计算机学会大数据专家委委员，中国计算机学会人工智能与模式识别专业委员会委员，中国计算机学会学术工委通讯委员，中国计算机学会南京分部学术工委主任，江苏省计算机学会人工智能专业委员会副主任，IEEE南京分部计算机分会秘书长，WIC中国区主席。

报告题目：智能决策与多智能体强化学习

报告摘要：序贯决策与协同决策是智能决策的关键问题，而多智能体强化学习是解决“序贯+协同决策”的主要技术。本报告从机器学习、博弈论两个维度介绍了多智能体强化学习技术的特点。同时，汇报课题组在博弈约简、均衡迁移、分布式博弈等方面的研究进展。最后，总结多智能体强化学习范式目前存在的挑战。

吴翼清华大学

讲者简介：吴翼，清华大学交叉信息研究院助理教授，2019年于加州大学伯克利分校获得博士学位，曾任OpenAI多智能体团队研究员。2014年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习，代表作包括OpenAI Hide-and-Seek Project，MADDPG算法，Value Iteration Network等，曾获NIPS2016最佳论文奖。

报告题目：从捉迷藏游戏谈起 (The Hide-and-Seek Game and Beyond)

报告摘要：通过开放的物理模拟器，和简单捉迷藏游戏规则，我们发现通过多智能体深度强化学习，可以让智能体通过自我对抗和博弈，逐渐学会6种，不同的人类可以理解的，套路和反套路。通过捉迷藏游戏的展示和分析，我们总结了多智能体深度强化学习的特点和潜在的缺陷，也提出了诸多的待解决的开放问题。对于其中的一些开放问题，我们也进行了进一步的研究，并尝试用新的学习算法和框架来尝试解决这些开放挑战。

章宗长南京大学

讲者简介：章宗长，南京大学人工智能学院副教授。现为计算机软件新技术国家重点实验室成员，机器学习与数据挖掘研究所（LAMDA）成员，中国计算机学会（CCF）高级会员，CCF人工智能与模式识别专委会执行委员。2012年于中国科学技术大学获得博士学位，曾先后在罗格斯大学、新加坡国立大学、苏州大学、斯坦福大学开展研究工作。研究方向为强化学习、智能规划和多智能体系统。已在国际会议（AAAI、ICML、IJCAI、NeurIPS等）和国内外期刊（JAAMAS、JCST等）发表论文40多篇，获授权的国家发明专利12项。共同发起了亚洲强化学习系列研讨会。担任期刊FCS的青年编委（2019 - ），AAAI、IJCAI、ECAI、ICAPS等CCF A/B类会议的高级程序委员，PAMI、JAIR、ICML、NeurIPS、ICLR等期刊和会议的论文评审专家。近年来主持国家自然科学基金2项、省市校级科研项目多项，与华为、阿里巴巴等企业有科研合作。入选南京大学第二批“紫金学者”（2021）。

报告题目：单智能体强化学习

报告摘要：作为机器学习的一个重要分支，强化学习研究的是如何让机器与环境交互，从中学会最优决策。强化学习系统包括策略、奖赏函数和值函数等核心元素。深度强化学习使用神经网络作为值函数或策略的逼近器，使得强化学习系统具有很强的环境表征能力及在复杂场景下的学习能力。相关技术运用于AlphaGo、AlphaStar、OpenAI Five等系统中，在围棋和大规模即时战略游戏上发挥出色，达到甚至超越了人类专家的决策能力，引起了学术界和工业界的高度关注。本次报告将从强化学习的基本设定出发，介绍一些经典的表格式强化学习算法，进而介绍近年来出现的一些代表性的深度强化学习技术，接着介绍迁移强化学习、分层强化学习等前沿主题，最后介绍我们组在这一领域取得的一些研究成果。

张伟楠上海交通大学

讲者简介：张伟楠博士现任上海交通大学约翰·霍普克罗夫特计算机科学中心长聘教轨副教授、博士生导师，科研领域包括强化学习、信息检索和数据科学，相关的研究成果在国际会议和期刊上发表超过100篇学术论文。张伟楠长期担任ICML、NeurIPS、ICLR、KDD、AAAI、IJCAI、SIGIR等机器学习和数据科学的会议(高级)程序委员和JMLR、TOIS、TKDE、TIST等期刊的评审以及FCS的青年编委。张伟楠于2017年获得上海ACM新星奖；2018年获华为最佳合作贡献奖；2018年获首届达摩院青橙奖。他的研究工作于2017年获ACM国际信息检索会议SIGIR的最佳论文提名奖；2019年获ACM SIGKDD深度学习实践研讨会最佳论文奖；2020年获国际机器人学习会议CoRL最佳系统论文奖；2021年ACM SIGKDD图深度学习研讨会最佳论文奖。张伟楠于2011年在上海交通大学计算机系ACM班获得学士学位，于2016年在伦敦大学学院计算机系获得博士学位。

报告题目：基于模型的强化学习

报告摘要：近年来深度强化学习已经成为人工智能研究界最受关注的方向之一，尽管如此，深度强化学习算法总是有样本效率低的问题，这阻碍着该技术的广泛落地应用。基于模型的方法最近成为增进深度强化学习样本效率最有效的研究方向之一，通过构建高质量的动态环境模型并使之与智能体策略做交互，产生的模拟数据能够进一步帮助策略进行训练，进而达到增进样本效率的效果。在本次报告中，我们将首先介绍经典强化学习中的基于模型的方法Dyna，基于此我们展开讨论环境模型的学习方法和基于环境模型的策略训练方法。然后我们讨论基于模型的强化学习的理论界及其对算法设计的影响。之后我们介绍一些连接环境学习和策略训练的最新研究工作。最后我们简要讨论基于模型的方法在离线强化学习和多智能体强化学习中的前沿研究工作。

张崇洁清华大学

讲者简介：张崇洁，清华大学交叉信息科学院助理教授，博士生导师。2011年在美国麻省大学阿默斯特分校获计算机科学博士学位，而后在美国麻省理工学院从事博士后研究。目前的研究专注于人工智能、深度强化学习、多智能体系统等领域。相关的研究成果在ICLR、ICML、NeurIPS、AAAI等国际会议上发表30余篇学术论文。

报告题目：多智能体深度强化学习

报告摘要：Due to the complex and combinatorial nature of real-world applications, deep reinforcement learning is shifting from single-agent to multi-agent settings. This tutorial will focus on cooperative multi-agent reinforcement learning (MARL). We will first describe its underlying model for multi-agent decision-making under uncertainty, called Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs), and discuss challenges in cooperative MARL, including scalability, credit assignment, uncertainty, diversity, and exploration. We will then introduce a popular paradigm of centralized training with decentralized execution and present factorized MARL methods, including linear and non-linear value factorization, to address the scalability and credit assignment of MARL challenges. Finally, we discuss some extensions of factorized MARL methods to address other MARL challenges.

张海峰 中科院自动化所

讲者简介：张海峰，中国科学院自动化研究所副研究员。于北京大学计算机系获得本科、博士学位，曾在英国伦敦大学学院（UCL）从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作，研究兴趣包括智能体策略评估、多智能体强化学习算法等，研究成果发表在ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊；负责研发的平台包括北京大学Botzone智能体博弈系统（www.botzone.org.cn）和中科院自动化所“及第”多智能体开源开放平台（www.jidiai.cn），并举办“IJCAI中国麻将智能体竞赛”、“RLChina智能体挑战赛”等智能体竞赛。

报告题目：智能体的博弈与强化学习

报告摘要：智能体之间的博弈问题一直以来受到人工智能研究者和大众的关注，典型的里程碑工作包括国际象棋智能体“深蓝”和围棋智能体“AlphaGo”等。在万物互联的时代，智能体的博弈策略学习问题出现在智能交通、智能物流等现实场景中，而强化学习是解决该问题的强有力工具。本报告将介绍博弈问题的基本概念，回顾传统的博弈策略算法，并探讨强化学习技术在解决博弈问题方面的新进展。

吴锋 中国科技大学

讲者简介：吴锋博士现任中国科学技术大学计算机学院副教授，硕士生导师。2006年毕业于中国科学技术大学计算机系获计算机科学与技术学士学位，2011年于中国科学技术大学获计算机应用博士学位（导师：陈小平教授）。读博期间曾在美国马塞诸塞大学阿莫斯特分校（University of Massachusetts Amherst）计算机学院访问两年，在 Shlomo Zilberstein 教授的指导下从事多智能体系统决策规划的相关研究。博士毕业后赴英国南安普顿大学（University of Southampton）电子计算机学院从事博士后研究三年，任 Research Fellow，参与 Nick Jennings 教授主持的 ORCHID 项目。2014年7月起就职于中国科学技术大学计算机学院。曾获得2011年度中国科学院院长奖特别奖，2012年度中国科学院优秀博士论文奖，以及第14届智能体与多智能体国际会议（AAMAS 2015）最佳应用论文奖等奖项。作为中国科大“蓝鹰”足球机器人团队的核心成员，多次参加 RoboCup 机器人学术竞赛，并获得三项世界冠军和一项世界亚军。目前主持国家自然科学基金（青年）项目一项，安徽省自然科学基金（青年）项目一项，并作为骨干成员参与了国家基金委重点项目和科技部重大专项。2014年入选中国科学院青年创新促进会。应邀担任 AIJ、JAIR、JAAMAS、ACM Trans 等国际人工智能学术期刊的审稿人，多次担任国际人工智能学术会议如 AAAI、IJCAI、AAMAS、NIPS、ICML等的（高级）程序委员会委员。近年来在 AIJ, IJCAI, AAAI, NIPS, UAI, AAMAS, ICAPS, ECAI等国际人工智能重要的学术会议和期刊上发表论文四十余篇。

报告题目：机器人强化学习的理论、挑战和应用

报告摘要：近年来，强化学习已经在虚拟世界游戏、模拟等领域取得突破性进展，但是在现实机器人的应用中却依然困难重重。如何打通虚拟世界和现实物理世界的桥梁，将在虚拟模拟器里训练得到的模型有效部署到机器人中，或直接在现实机器人中进行高效强化学习训练，并将相应核心算法落地到机器人实际应用场景中，是一项具有挑战性的研究课题。本次报告将分享强化学习技术在机器人领域的理论、挑战和应用的近期进展，对机器人强化学习的研究概貌进行一个相对系统的介绍。

温颖上海交通大学

讲者简介：温颖，上海交通大学约翰·霍普克罗夫特计算机科学中心长聘教轨助理教授。他的研究方向涉及多智能体学习，强化学习及博弈论在其中的应用。他分别于2020年和2016年获得英国伦敦大学学院计算机系博士学位和研究型硕士学位。他的十余篇研究成果发表在ICML, ICLR, IJCAI, AAMAS等相关领域的一流国际会议上，并且获得CoRL 2020最佳系统论文奖和AAMAS Bule Sky Track最佳论文奖。他连续多年担任ICML, NeurIPS,ICLR, IJCAI, AAAI, ICAPS, Operational Research等国际知名会议/期刊的PC成员或审稿人。

报告题目：大规模深度强化学习训练系统：从单智能体到多智能体

报告摘要：近些年，随着强化学习在各类场景上取得了越来越多的突破性进展，支撑起深度强化学习研究与应用的训练系统也越来越复杂。尤其是涉及多智能体深度强化学习时，开发或验证一个算法需要掌握和关注的知识点越来越多，并且对非算法相关的基础技术提出了要求，例如分布式集群管理，异构硬件优化等等。在这种情况下，研发的门槛在上升，效率在下降，需要寻求一个系统的方案来解决研发门槛和效率的问题。在本次分享中，针对这一系列问题，我们首先将从数据流与任务流的角度出发，分析传统监督学习的大数据、大模型的优化系统与深度强化学习系统的区别。紧接着，我们将介绍针对单智能体的分布式强化学习系统的需求与进展。最后，我们将进一步探讨针对多智能体深度强化学习更复杂的训练、评估和采样需求，如何解耦数据流与任务流，在底层计算集群上提供更高层次的实现接口，为相关研究与应用在研发的门槛和效率上取得平衡。

Zhiwei (Tony) Qin 滴滴AI Labs

讲者简介：

秦志伟（Tony）博士，业界决策智能专家，致力于网约车交易市场中核心策略优化的研究。他从美国哥伦比亚大学获得运筹学博士，曾在沃尔玛全球电子商务任职研究科学家，近几年主要聚焦在强化学习及其在运筹优化，智能交通，在线营销上的应用。他在机器学习，数据挖掘和运筹优化的顶级会议和期刊发表近30篇论文，并是多个会议和期刊(NeurIPS, ICML, KDD, AAAI, TR-C, Transportation Science等)的评审专家。他带领团队获得了 INFORMS 2019年Daniel H. Wagner Prize（运筹学杰出应用奖），并入选NeurIPS 2018 Best Demo Awards。Tony拥有10多项美国专利，涵盖智慧交通，供应链管理，和推荐系统。

报告题目：强化学习在共享出行中的应用

报告摘要：

学术主任：俞扬 南京大学

俞扬，博士，南京大学教授，国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习，专注于开放环境强化学习的理论、技术、与落地应用。获2020 CCF-IEEE“青年科学家奖”，入选2018年IEEE Intelligent Systems杂志评选的“国际人工智能10大新星”，获2018亚太数据挖掘"青年成就奖”，受邀在IJCAI’18作关于强化学习的"青年亮点"报告。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。

时间：2021年10月15-17日

地点：北京•中国科学院计算技术研究所一层报告厅（北京市海淀区中关村科学院南路6号）

报名须知：

1、报名费：CCF会员2800元，非会员3600元。食宿交通费用自理。根据交费先后顺序，会员优先的原则录取，额满为止。
2、报名截止日期：2021年10月13日。报名请预留不会拦截外部邮件的邮箱，如qq邮箱。
3、咨询电话：18810669757 邮箱 : adl@ccf.org.cn

缴费方式：

在报名系统中在线缴费或者通过银行转账

银行转账（支持网银、支付宝）：

开户行：招商银行北京海淀支行

户名：中国计算机学会

账号：110943026510701

请务必注明：姓名+ADL120

报名缴费后，报名系统中显示缴费完成，即为报名成功。

报名方式：请选择以下两种方式之一报名：

1、扫描（识别）以下二维码报名：

2、点击报名链接报名：https://conf.ccf.org.cn/ADL120

ADL120《深度强化学习》开始报名

相关阅读ADL线下活动全面启动

相关阅读
ADL线下活动全面启动