ADL135《智能语音交互技术》开始报名-线上线下同步举办

阅读量:654 2022-09-29 收藏本文

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第135期

主题智能语音交互技术

2022年11月18-20日

本期CCF学科前沿讲习班《智能语音交互技术》，分别对语音识别、语音合成、语音前端处理、口语对话等技术最新研究进展进行系统性梳理，帮助学员理解智能语音交互方面的基本概念、主要挑战和解决方法，掌握该领域的一系列前沿技术，并通过实际案例了解语音的应用前景，开阔科研视野，增强实践能力。

本期ADL讲习班邀请到了本领域9位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对智能语音交互方面的最新进展进行深入浅出的讲解，为听众展示在语音领域的实践案例, 并介绍如何解决并行训练效率的挑战，如何部署模型等解决语音落地问题的宝贵经验。

学术主任：谢磊西北工业大学教授

主办单位：中国计算机学会

承办单位：OPPO广东移动通信有限公司

活动日程：

2022年11月18日
9:00-9:15	开班仪式
9:15-9:30	全体合影
9:30-11:30	语音合成讲座1：语音合成技术综述：基础与前沿吴志勇，清华大学深圳国际研究生院副研究员
11:30-13:00	午餐
13:00-15:00	对话交互讲座1：面向亿级用户的小布助手对话式AI算法系统实践与思考杨振宇，OPPO小布智能中心-NLP与对话算法负责人
15:00-15:15	休息
15:15-17:15	语音识别讲座1：统计语音识别中的鲁棒性问题和自适应研究钱彦旻，上海交通大学计算机科学与工程系教授，上海交通大学-思必驰联合实验室副主任

2022年11月19日
9:30-11:30	语音前端讲座1：语音前端处理技术和应用付强，阿里巴巴达摩院研究员
11:30-13:00	午餐
13:00-15:00	语音合成讲座2：基于深度学习的话者转换凌震华，中国科学技术大学信息学院教授
15:00-15:15	休息
15:15-17:15	对话交互讲座2：多模态多轮对话技术的最新进展及应用吴友政，京东科技高级总监，语音语言算法部负责人

2022年11月20日
9:30-11:30	语音识别讲座2：端到端语音识别的进展李锦宇，美国微软公司的Partner应用科学家和技术主管
11:30-13:00	午餐
13:00-15:00	语音前端讲座2：面向多人交互场景的语音预处理技术杜俊，中国科学技术大学语音及语言信息处理国家工程实验室副教授
15:00-15:15	休息
15:15-17:15	语音识别讲座3：数据高效的多语言与跨语言语音识别欧智坚，清华大学电子工程系副教授
17:15-17:30	小结

特邀讲者：

李锦宇 美国微软公司的Partner应用科学家和技术主管

讲者简介：李锦宇，佐治亚理工大学博士，现任美国微软公司的Partner应用科学家和技术主管。他带领一个团队设计和改进语音建模算法和技术，以确保微软的语音识别产品具有世界领先水平。他的主要研究兴趣涵盖语音识别的多个主题，包括端到端建模、深度学习、噪声鲁棒性等。他是《Robust Automatic Speech Recognition -- A Bridge to Practical Applications》一书的第一作者。自 2017 年起担任 IEEE 语音和语言处理技术委员会成员。2015 年至 2020 年，他还担任 IEEE/ACM Transactions on Audio, Speech and Language Processing 的副主编。报告题目：端到端语音识别的进展

报告摘要：语音识别的最新动向是从混合模型语音识别转换为端到端 (E2E) 语音识别。尽管 E2E 模型在大多数标准数据库测试中都达到了最好的结果，但目前仍有许多的商业语音识别系统使用混合模型。这是因为很多实际因素会影响产品模型的部署决策。传统混合模型几十年来一直针对产品应用进行优化,一般来说它们通常能够在这些因素上有很好的表现。如果不针对这些因素提供出色的解决方案，E2E 模型很难大规模商业化。在本次报告中，我将从工业界的角度来概述 E2E 模型的最新进展，以及解决这些挑战的技术。

欧智坚清华大学电子工程系副教授、博士生导师

讲者简介：欧智坚，清华大学电子工程系副教授、博士生导师，研究方向是语音识别与人机对话、机器智能（特别是概率图模型理论及应用）。担任IEEE音频语音语言期刊（TASLP）副主编，Computer Speech & Language编委，IEEE语音语言技术委员会（SLTC）委员，IEEE言语技术（SLT）2021大会主席，中国计算机学会（CCF）杰出会员及语音对话与听觉专业组委员，中国声学学会（ASC）语言声学与听觉分会委员以及多个国际会议组委会成员、多个国际会议、学术期刊和国家级项目评审人。作为负责人多次承担自然科学基金、科技部、教育部等国家项目并多次赢得技术评测，与中国移动、Intel、IBM、Panasonic、Toshiba、Apple等合作研发。在TPAMI/TASLP/ICLR/UAI/AAAI/ICASSP/ACL/电子学报等重要学术期刊和会议发表论文近百篇。获得省部级科技奖3项及多次国内外学术会议优秀论文奖。

报告题目：数据高效的多语言与跨语言语音识别

报告摘要：世界上共有7099个语种和141个不同的语系，将语音识别技术拓展到多语言与跨语言场景，面临新的挑战。多语言语音识别，汇聚多语言的语音数据来训练一个多语言模型，并在零样本或小样本下对新语言进行跨语言语音识别，在一定程度上缓解当前语音识别技术对大量标注的依赖。成功的多语言与跨语言语音识别的关键是，提升多语言训练中的信息共享并最大限度地将知识从充分训练的多语言模型迁移到新语言的模型，以此促进样本高效，实现在标注样本量不变的条件下提升系统性能。本报告将围绕此中心思想，系统地介绍相关技术。首先，我们将简述概率图模型理论，并在其框架下介绍语音识别模型和算法的基础知识，我们将分离神经网络架构和概率模型定义，以建立对现有技术的灵活认识。然后，重点介绍多语言与跨语言语音识别技术，包括声学单元选择，音韵学发音特征，模型构建，多语言信息共享的方式，迁移学习等。最后，指出开放性问题及若干探索，如神经架构搜索等最新技术。

钱彦旻上海交通大学计算机科学与工程系教授，上海交通大学-思必驰联合实验室副主任

讲者简介：钱彦旻：上海交通大学计算机科学与工程系教授，博士生导师。清华大学博士，英国剑桥大学工程系博士后。国家优秀青年基金、上海市青年英才扬帆计划、吴文俊人工智能自然科学奖一等奖（第一完成人）获得者。现为IEEE高级会员、ISCA会员，同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。有10余年从事智能语音及语言处理、人机交互和机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文200余篇，Google Scholar引用总数10000余次，申请60余项中美专利，合作撰写和翻译多本外文书籍。3次获得领域内国际权威期刊和会议的最优论文奖，3次带队获得国际评测冠军。作为负责人和主要参与者参加了包括国家自然科学基金、国家重点研发计划、国防JKW、国家863、英国EPSRC等多个项目。2020年和2014年，因在智能语音处理技术理论创新与产业化应用方面的贡献，获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”自然科学奖一等奖和科技进步奖二等奖。目前的研究领域包括：语音识别，说话人和语种识别，语音抗噪与分离，语音情感感知，自然语言理解，深度学习建模，多媒体信号处理等。

报告题目：统计语音识别中的鲁棒性问题和自适应研究

报告摘要：近年来，随着深度学习的进步，语音识别技术得到了飞速地发展，并已经在很多场景下商业化落地。然而，即使是使用最先进的技术，语音识别系统依然面临鲁棒性问题。目前大部分语音识别系统在面对高噪声，强混响，失配信道，重口音等环境时，系统性能和识别精度极具下降。为此探索语音识别系统的鲁棒性问题非常重要，也极具挑战。本报告将介绍统计语音识别中鲁棒性的问题根源，以及相关处理方法，并对克服鲁棒性问题的重要方法自适应技术做相关的研究介绍。

吴志勇清华大学深圳国际研究生院副研究员，博士生导师

讲者简介：吴志勇，清华大学深圳国际研究生院副研究员，博士生导师。清华大学-香港中文大学媒体科学、技术与系统联合研究中心副主任。研究兴趣为面向人工智能的智能言语交互技术，包括：智能语音交互、情感计算、表现力可视语音合成、自然语言理解与生成、音视双模态联合建模，机器学习等。发表学术期刊及会议论文100余篇。中国计算机学会语音对话与听觉专业委员会委员，全国人机语音通讯学术会议常设机构委员。承担国家自然科学基金、香港特区政府研究资助局基金、国家社会科学基金等多项课题。获2009及2016年度教育部科学技术进步奖。指导的学生多人次获得优秀学位论文、国家奖学金、优秀毕业生。

报告题目：语音合成技术综述：基础与前沿

报告摘要：语音合成又称文语转换，旨在将输入文本转换为高可懂度、高自然度、高表现力的输出语音，是实现智能人机语音交互的关键技术，受到学术界和工业界的广泛关注。传统的基于拼接式、统计参数合成等方法，虽然实现了较好的语音合成效果，但其建模能力限制了语音合成性能的进一步提升。近年来，随着深度学习技术的发展，基于深度神经网络的语音合成极大地提高了合成语音的音质和自然度，并在表现力、个性化语音合成方面取得了长足的进步。本次报告将对语音合成技术的基础以及最新的前沿研究热点进行介绍，并对未来的研究方向进行展望。

凌震华中国科学技术大学信息学院教授，博士生导师

讲者简介：凌震华，中国科学技术大学信息学院教授，博士生导师，语音及语言信息处理国家工程研究中心副主任。主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目，已发表论文200余篇，论文累计引用7000余次，获国家科技进步奖二等奖和IEEE信号处理学会最佳青年作者论文奖。在Blizzard Challenge国际语音合成技术评测、Voice Conversion Challenge国际语音转换技术评测等活动中多次获得测试指标第一名。现为电气电子工程师学会（IEEE）高级会员、中国计算机学会语音听觉与对话专业组委员、全国人机语音通讯学术会议常设机构委员会委员。2014-2018年任IEEE/ACM TASLP期刊副编辑。

报告题目：基于深度学习的话者转换

报告摘要：话者转换（Voice Conversion）指的是在不改变文本内容的前提下修改源话者语音，使其个性特征接近目标话者。近年来，深度学习方法在话者转换任务中得到了成功应用，显著提升了转换后语音的自然度以及与目标话者的相似度。本报告将首先简要回顾话者转换的定义、任务分类与研究历史，然后介绍深度学习技术在话者转换声学模型、声码器等不同模块中的应用方法。进一步，报告将介绍非平行数据、跨语种等非理想场景下的话者转换技术的前沿研究进展，并结合近两届的Voice Conversion Challenge国际话者转换评测活动讨论话者转换的当前技术状态与未来发展趋势。

杜俊中国科学技术大学语音及语言信息处理国家工程实验室副教授

讲者简介：杜俊，中国科学技术大学语音及语言信息处理国家工程实验室副教授，2009年-2013年就职于科大讯飞研究院和微软亚洲研究院，期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用，已发表论文200余篇，谷歌学术引用6400余次，以唯一通讯作者发表的IEEE-ACM TASLP期刊论文获得2018年IEEE信号处理学会最佳论文奖，2019年获安徽省科技进步一等奖。目前是IEEE高级会员，并担任语音领域顶级期刊IEEE-ACM TASLP的编委、IEEE信号处理学会语音及语言处理技术委员会（SLTC）委员、亚太信号与信息处理协会（APSIPA）语音语言音频分会（SLA）技术委员会的副会长以及APSIPA Distinguished Lecturer。带领团队参加语音和图文领域国际评测获得40多项冠军。

报告题目：面向多人交互场景的语音预处理技术

报告摘要：随着应用场景的日益复杂，如多人交互的家居和会议场景下，同时存在口音方言、环境噪声、房间混响、人声重叠多个影响因素，很多语音应用（如语音识别）的环境鲁棒性和说话人鲁棒性都远未达到实用门槛，因此语音预处理技术（如语音增强、语音分离、语音去混响和说话人日志等）的发展至关重要。本报告将回顾过年20年间，在深度学习、大数据和云计算技术的快速发展下，语音预处理技术的研究如何从简单场景逐步转换到多人交互复杂场景，并且结合语音领域经典的“鸡尾酒会问题”，和大家共同探讨未来的发展趋势。

付强阿里巴巴达摩院机器智能技术语音实验室研究员

讲者简介：付强博士现任阿里巴巴达摩院机器智能技术语音实验室研究员、曾任中科院声学所研究员, 北京先声互联科技有限公司（被阿里巴巴集团收购）创始人。长期从事声学和语音信号处理方面的科研和产业化工作, 主持和参与包括国家自然科技基金、国家和省部委在内的几十项科研课题，其成果广泛应用于不同种类的消费级智能硬件和公共安全等多个领域, 在包括IEEE Tran., ICASSP等领域顶级学术刊物及会议上发表论文100余篇，已授权发明专利约50项, 主持制订1项终端语音识别相关国家标准。曾获余杭工匠（2020）和中国科学院杰出科技成就奖（2014）。

报告题目：语音前端处理技术和应用

报告摘要：语音前端处理技术是人——机语音交互和人——人语音通话系统的重要组成部分。所谓前端，指的是诸如PC、平板电脑、手机、各种带语音功能的嵌入式和IOT设备。相对于部署在云上的后端系统来说，语音前端处理具有低资源、高实时、设备类型多样化、声学环境错综复杂等特点。本报告从实际应用的角度出发，向大家介绍语音前端处理中的常用技术，例如波束形成、盲源分离、回声消除、去混响、声音活动性检测、关键词检测、数据模拟。在和大家一起回顾这些算法背后的经典信号处理理论和数学原理的同时侧重于介绍在小资源、高实时系统上的求解思路，例如利用凸优化理论求解波束形成、共轭对称矩阵求逆、IQRD-RLS算法、在线隐马尔可夫模型等。同时还向大家介绍了阿里巴巴达摩院机器智能技术近几年在语音前端处理上的一些进展，包括基于盲源分离的信号处理统一框架、语音增强和关键词检测联合优化等工作。

吴友政京东科技高级总监

讲者简介：吴友政，京东科技语音语义创新算法部负责人、高级总监。博士毕业于中国科学院自动化研究所，毕业后在日本情报通信研究机构（NICT）、英国爱丁堡大学、索尼中国研究院和爱奇艺负责自然语言处理、语音识别、机器翻译等前沿技术研究和产品研发工作，在国际自然语言处理领域顶会和期刊上发表多篇学术论文（如ACL/EMNLP/AAAI/IJCAI/ICASSP等）。曾获得语音识别比赛（IWSLT2012、IWSLT2013）和机器阅读理解比赛（QuAC 2021、DROP2022）的冠军。主办京东人机对话挑战赛JDDC 2019和JDDC 2020，京东多模态商品文案生成比赛CEPSUM等。技术产品化上，带领团队打造了基于多轮对话技术的智能客服平台言犀、基于多模态内容生成技术的品创等。曾获得京东集团技术金牛奖等荣誉。

报告题目：多模态人机对话技术和产业应用

报告摘要：人机对话技术旨在解决大众用户在多样化场景下完成复杂任务时的人机“交流障碍”问题。目前人机对话技术的特点主要体现在：1）核心引擎从早期的单轮问答升级为多轮对话；2）对话交互模式涵盖文本、语音和数字人等多种形式；3）多模态人机对话技术在零售、物流、金融、政务等场景已经开始大规模的产业应用；4）高噪声复杂场景下的规模化应用仍然有很大的挑战。本报告主要介绍多模态人机对话技术的基础知识、最近进展、大规模产业应用，并开放的与大家一同探讨多模态人机对话的未来。

杨振宇 OPPO小布智能中心-NLP与对话算法负责人

讲者简介：杨振宇，OPPO小布智能中心-NLP与对话算法负责人，深圳市高层次人才计划入选者，于中国科学技术大学获得计算机学士和博士学位。近年来主要从事自然语言处理、对话式AI相关算法研究与落地应用工作。2015年之前任教于国防科学技术大学，学术论文代表作单篇他引超过800次，入选ESI Top 0.1%热点论文。所从事科研工作曾获高等院校（科学技术）科技进步二等奖1次、湖南省科技进步二等奖2次。2015年后加入工业界，专注于对话式AI关键算法技术研发与落地，2018年加入OPPO主导NLP与对话算法工作，帮助公司级战略产品小布助手实现从零到月活过亿的突破。

报告题目：面向亿级用户的小布助手对话式AI算法系统实践与思考

报告摘要：对话式AI是人工智能和人机交互领域非常重要的研究方向。作为全球知名的智能设备制造商，OPPO把万物互融作为未来的战略发展方向，而对话式AI则是该战略方向不可或缺的重要组成部分，对于打造全新智慧操作系统，为用户提供有趣、贴心的智能交互体验具有非常重要的意义。本报告将以OPPO小布助手对话式AI算法系统的发展历程为案例，分享亿级用户对话式AI系统的构建目标、要解决的关键算法问题、主要实践与思考，以及未来面临的挑战。

学术主任：谢磊西北工业大学教授

谢磊，西北工业大学教授，博导。曾在比利时布鲁塞尔自由大学、香港城市大学和香港中文大学从事研究工作。获得教育部"新世纪优秀人才支持计划"，陕西省青年科技新星、西安市青年科技奖等荣誉。研究兴趣为智能语音处理技术，包括语音增强、语音识别、语音合成、声纹识别、多模态处理等。在包括IEEE Transactions on Audio, Speech and Language Processing、 IEEE Transactions on Multimedia, ACL, Interspeech, ICASSP、ACM Multimedia 在内的重要期刊和会议上发表论文230余篇，带领团队多次获得学术会议最佳论文奖和多项国际评测第一名。主持多项国家和省部级科研项目。与腾讯、华为、搜狗、阿里、小米、字节跳动、美团、爱奇艺、网易、出门问问等业界企业开展了广泛深入的技术合作，众多研究成果已在企业获得应用，获得美团科研合作实践奖、华为优秀技术合作成果奖、华为云“优秀创新合作奖”等。担任第十届国际中文口语语言处理学术会议（ISCSLP2016）程序委员会主席、第十一届和第十五届全国人机语音通讯学术会议（NCMMSC）程序委员会主席、IEEE口语语言处理研讨会(SLT2020)大会主席、ISCSLP2022大会主席、2019中国多媒体大会（ChinaMM2019）程序委员会主席等。谢磊教授是IEEE语音和语言技术委员会（IEEE SLTC）委员、中国计算机学会语音听觉与对话专委会常务委员、IEEE高级会员等。谢磊教授也是包括IEEE/ACM Transactions on Audio, Speech and Language Processing在内的多个期刊的编委（AE）。

时间：2022年11月18日-11月20日

线下地址（疫情允许的情况下）：北京•中国科学院计算技术研究所一层报告厅

（北京市海淀区中关村科学院南路6号）