让强化学习走出游戏环境——俞扬，2020年CCF-IEEE CS青年科学家奖获得者

阅读量:2242 2021-01-05 收藏本文

CCF理事长梅宏教授（左一）、百度校园品牌部总监李轩涯博士（右一）为俞扬教授颁奖

俞扬，2004年获得南京大学计算机系学士学位，2011年在周志华教授的指导下获得南京大学博士学位。研究方向为机器学习，目前主要集中在强化学习理论与应用技术的研究。

启发到本质：从演化学习出发

演化学习的理论基础，是俞扬博士生期间的主要研究方向。演化学习借助启发式的演化算法，来解决机器学习中难以求解的问题，这一类方法在实践上常有较好的结果，但启发式的算法设计容易使得对算法的理解流于表象，难以洞悉算法工作原理的本质。演化学习算法的启发式设计导致分析十分困难，理论长期落后于实践，理论研究的一点进展对应用研究作用不大，难以获得应用领域认可，因此演化学习的理论研究往往是一个不讨巧的方向。

为了追寻演化学习算法背后的机理，俞扬的研究工作针对这类算法获取最优解需要多少计算时间，是否可以在有限时间逼近最优解，以及算法中的多种启发式算子是否可证有效等关键基本问题，建立了一套理论分析框架，并最终设计出具有理论保障的有效算法。部分成果收录到Spinger出版的专著《Evolutionary Learning: Advances in Theories and Algorithms》中，该书的中文版也将于近期由人民邮电出版社出版。

在各种机器学习任务中，强化学习从采样到学习都需要自主完成，长流程导致其学习问题复杂，也使其成为演化学习方法最能有效发挥作用的领域之一。同时，强化学习的设定更加接近生物在自然界中与环境打交道的过程，领域内常自喻是“真正的人工智能”。2011年获得博士学位留校担任专职助理研究员的俞扬深受吸引，开始研究强化学习。

理想到面包：强化学习从冷到热

留校任教后，俞扬希望劝说研究生一同开展强化学习的研究，但强化学习在企业中的应用前景常常引起学生条件反射般的疑问：强化学习有企业要用吗？不幸的是，当时这个问题的回答是否定的，仅凭“真正的人工智能”这一愿景很难打动要找工作的研究生。

另一方面，当时没有企业在使用强化学习技术的现象背后，其实有着充分的理由。强化学习的训练过程需要自主地与环境交互，经历大量的试错，最终找到最优的策略。然而在开放的实际环境中试错会产生代价，甚至发生致命的损失，因此强化学习的研究仅仅停留在游戏环境中——一个几乎没有试错代价的封闭场所。与此同时，仅依赖历史数据的监督学习技术，则在图像识别、预测等应用上大放异彩，各大互联网企业大力投入应用。

幸运的是，科技的突破往往带来了历史的转折与机遇。2016年AlphaGo战胜人类，不仅引发了人工智能的新一轮浪潮，更因其包含了强化学习技术的使用，极大地刺激了强化学习领域的发展。时至今日，在机器学习顶级会议上，强化学习已经成为最火热的研究方向，相关的研究论文能占到1/3的比例。

虚拟到现实：释放强化学习的力量

演化学习理论研究的经历让俞扬认为，技术领域的研究最终是为了迈向现实。AlphaGo对于人工智能领域发展的一个重要意义在于，许多企业，尤其是互联网头部企业也希望跟进与尝试强化学习技术的应用。

然而事与愿违，强化学习关注度的迅速提升，并没有改变其依赖游戏环境的特性。与淘宝搜索团队的合作表明，最初在真实的用户环境里训练强化学习，即使仅用很少的流量，试错也会造成巨大的收益损失。因此，简单将强化学习算法从游戏环境搬到现实场景是不具备可用性的。

如果能像监督学习技术一样，从现实场景的历史数据中就能学到一个好的决策模型，那么强化学习就能用起来。有了这个想法后，俞扬面前摆着两条技术路径的岔路口，一条是直接在数据上学习策略；一条是首先从数据上学习环境模型，再从环境模型中学习策略。然而以往对于环境模型学习的理论分析显示出，环境模型的误差会导致策略误差平方级增长，学一个好的环境可能比直接学策略还要困难，但是环境学习一旦成功，在策略的泛化能力和应用过程上都具有无可比拟的优势，因此俞扬选择下注环境学习的路径。

2017年与淘宝搜索团队讨论后，俞扬向阿里提交了“虚拟淘宝”项目申请，试图从历史数据中学习出一个有虚拟用户的环境，有了这个环境，便可以实现“0成本”训练强化学习。但项目申请提交后，很快收到了阿里评审专家的质疑：用户行为如此复杂，从未有方法成功模拟，项目能行得通吗？确实，在当时没有任何成功案例，也没有任何信心，但这是俞扬唯一能够预见可行的途径，成功只有这一条路，只能硬着头皮试试看。

在调整了多种环境学习的方案后，有一种方案显示出了可行性：即在AAAI 2019发表的MAIL方法，通过环境和智能体的对偶性和对抗学习同时训练环境模型和策略模型。2018年完成了方案的线上验证，实验显示出，在环境模型获得了4%性能提升后，现实业务在A/B测试获得了2%的性能提升。这一结果第一次展示出环境学习途径在真实场景应用的可行性。接下来，在与滴滴出行、菜鸟仓库等多个真实开放场景下，这一技术路径均得到验证，并且也通过场景打磨了算法。

MAIL及其改进方法的成功，还停留在实验验证上，其背后的理论依据尚不清楚。2020年，俞扬和学生的工作证明了MAIL中的对抗成分，首次将以往平方级放大的环境误差减少为线性级，误差可减少100倍以上，论文在NeurIPS 2020发表。以往最优秀的算法为了控制误差，而不得不对环境模型的使用加以限制，在新的理论中变得不再需要。

合作到责任：引领国际竞争，推动区域发展

2020年也是强化学习走出游戏环境的启动年，在国际上，DeepMind、Google、Berkeley等机构的学者也把目光放在如何走出游戏环境上，推动“离线强化学习”、“数据驱动强化学习”方向的研究，并建立了测评环境。可以预见在未来几年中，走出游戏环境将成为强化学习领域的主流方向之一。

为了促进我国相关领域的研究，俞扬联合发起了亚洲强化学习研讨会，并承担了多届研讨会的组织，他还担任了2020年在南京举办的国际分布式人工智能会议程序主席，该会议以智能体和多智能体为主要议题。

强化学习技术在博弈游戏中展示出极强的对抗能力，可以预见这样的技术走出游戏后，将造成重大变革，技术弱势的竞争单位可能会面临来自算法的打击。因此俞扬正推动与相关企事业单位的合作，率先将强化学习技术落地在我国制造、物流、服务等行业以及在国防应用中，努力为我国的产业智能化升级和国家安全做出贡献。

<<< 上一篇 2020年“CCF杰出工程师奖”评选结果公告

软件自动验证的追梦者——吴志林，2020年CCF- 下一篇 >>>

<<< 下一篇软件自动验证的追梦者——吴志林，2020年CCF-