【预告】TF38: 无（少）标注数据在人工智能中的应用

阅读量:354 2020-12-07 收藏本文

11月29日，主题为“无（少）标注数据在人工智能中的应用”TF38期研讨会将在线举行。本次研讨会邀请到来自高校和互联网企业一线的研究者和技术负责人，从自然语言处理，语音，文本语义理解与信息抽取等多个领域，分享及探讨无标注或者少量标注数据在AI领域的最新学术进展与工业实践。

CCF TF 技术前线

只为技术专家

CCF TF第38期

主题　无（少）标注数据在人工智能中的应用

2020年11月29日14:00-17:30

人工智能技术的目标是理解，复制，甚至超越人类的智能。目前最成功的技术路线是模仿人类的“学习”能力和过程，让模型从数据中学习规律和知识。数据在人工智能发展过程中有着至关重要的作用。但是在现实中，获取大量的有标注的数据，比如机器翻译需要的平行语料，是非常不容易的。而另一方面，大量的无标注数据（例如网页文本）却相对容易获得。同时，人具有很强的从大量无标注数据中学到知识和规律的能力，如何给机器也赋予这样的能力，从无标注数据中获得效果优良的模型，是人工智能领域一个活跃的研究方向，具有巨大的价值。

近年来，该领域有了长足的进展，也有相当多的落地的应用。本次活动邀请到来自高校和互联网企业一线的研究者和技术负责人，从自然语言处理，语音，文本语义理解与信息抽取等多个领域，分享及探讨无标注或者少量标注数据在AI领域的最新学术进展与工业实践。

会议主席

CCF TF AI SIG主席网易有道首席科学家

段亦涛

个人简介：美国加州大学伯克利分校(UC Berkeley)计算机科学博士，师从Canny边缘检测算子发明者John Canny教授，研究方向包括大规模分布式计算，数据挖掘，机器学习，密码学以及安全和隐私。在包括KDD，INFOCOM，USENIX Security，PODC等国际顶级会议发表论文20余篇，有近20年的机器学习技术落地实践。现任网易有道首席科学家，CCF TF AI SIG主席，致力于AI技术在教育等领域的应用。

特邀讲者

昆山杜克大学电子与计算机工程副教授, 武汉大学计算机学院兼职教授, 博导

李明

主题报告一：基于深度编码的说话人识别及日志

主题简介：首先介绍近年来成为主流的基于深度编码的说话人识别方法；其次，从无监督学习的角度探索说话人识别这一通常为有监督学习的任务；最后，介绍采用有监督学习的框架去展开说话人日志这一通常为无监督学习的任务。

个人简介：李明，博士毕业于美国南加州大学, 现任昆山杜克大学电子与计算机工程副教授, 武汉大学计算机学院兼职教授, 博导。研究方向包括音频语音信息处理，多模态行为信号分析等方向。已发表学术论文120 余篇，现担任IEEE语音及语言技术委员会委员，APSIPA 语音及语言处理技术委员会委员，中国计算机学会语音对话与听觉专业组专委，中国人工智能学会人工心理与人工情感专委会专委, IEEE学会高级会员。

网易伏羲实验室自然语言处理组负责人

毛晓曦

主题报告二：对话蒸馏：一种利用未配对语料对开放域对话机器人进行数据增强的方法

主题简介：随着预训练语言模型的发展，小样本乃至无样本学习在自然语言处理领域得到了广泛应用。但在自然文本生成应用中，获得良好的性能仍然依赖于大量的监督数据，这限制了许多想法的落地。本次分享将介绍我们利用未配对语料提升对话机器人效果的最新成果，希望能对有构建特殊风格开放域对话机器人需求的团队有一定启发。

个人简介：毛晓曦，毕业于清华大学计算机系，现任网易伏羲实验室自然语言处理组负责人。目前主要负责自然语言处理技术在游戏领域的落地应用和相关的研究工作。曾领导开发了《倩女幽魂手游》智能养育系统，《遇见逆水寒》“傀儡戏”系统，有灵对话机器人开放平台，有灵智能创作平台等产品。研究兴趣包括自然语言生成、对话系统等，多次在AAAI、EMNLP等顶级学术会议及期刊上发表学术论文。

有道自然语言处理组负责人

黄瑾

主题报告三：无标签数据在有道NLP任务中的应用

主题简介：由于大量相对容易获得的单语语料的存在，无标签或者少标签数据在自然语言处理任务中起着很重要的作用。本次分享介绍有道在机器翻译和其他NLP任务中利用这类数据的一些实践收获。

个人简介：黄瑾，有道自然语言处理技术负责人。2007年硕士毕业于中国科学院计算技术研究所，之后入职网易有道信息技术（北京）有限公司至今。从事机器翻译以及其他NLP相关技术的研发多年。带领技术团队于2008年推出国内首个基于统计方法的在线机器翻译引擎，并于2017年升级为神经网络机器翻译引擎。该引擎经过持续升级和优化，已经成为有道词典、有道翻译官、以及以有道词典笔为代表的有道智能硬件系列产品的核心翻译引擎。同时，也主导开发了有道智能写作，背诵检查，翻译评分等教育领域的NLP应用。

北京航空航天大学计算机学院副教授

张日崇

主题报告四：有限监督场景下的文本语义理解与信息抽取

主题简介：文本数据的语义理解的正确性是保障知识抽取准确性的关键，也是后续知识有效利用的重要基础。深度学习是目前最有效的面向知识抽取的文本数据语义理解方法，然而大规模、高质量标注训练数据缺失的问题限制了深度学习模型的效果，进而成为了信息抽取系统的瓶颈。本次报告将分享报告人在有限的标注训练数据的场景下，从特征增强和特征迁移的角度进行的数据混合增强、语法信息融合和跨领域迁移等一系列文本语义建模方法的尝试，初步降低了语义理解模型对领域标注的依赖，并提升了语义理解和信息抽取的效果。

个人简介：北京航空航天大学副教授，加拿大渥太华大学计算机科学博士。主要从事机器学习和自然语言处理技术的研究，具体包括文本语义理解与质量评估，知识库构建与知识表示和知识关联推理与问答应用等方面。作为项目负责人主持国家自然科学基金2项，并作为科研骨干参与国家973计划、国家863计划、国家自然科学基金等多项重要研究课题，相关研究成果获2018年中国电子学会技术发明奖一等奖，在WWW、SIGIR、AAAI和IJCAI等学术会议上发表学术论文50余篇，现任Computational Intelligence期刊编委，并担任IJCAI、AAAI、ACL等高水平国际会议的程序委员会委员。

日程安排

14:00-14:10	段亦涛 CCF TF AI SIG主席	开场致辞
14:10-14:50	李明昆山杜克大学电子与计算机工程副教授	基于深度编码的说话人识别及日志
14:50-15:30	毛晓曦网易伏羲实验室自然语言处理组负责人	对话蒸馏：一种利用未配对语料对开放域对话机器人进行数据增强的方法
15:30-16:10	黄瑾有道自然语言处理组负责人	无标签数据在有道NLP任务中的应用
16:10-16:50	张日崇北京航空航天大学计算机学院副教授	有限监督场景下的文本语义理解与信息抽取
16:50-17:10	问答与讨论

参会说明

1、将会场挪至互联网，打破地域限制，自由参与其中。

2、免报名费，对TF感兴趣的参会者完全开放。

3、会议模式：腾讯会议

4、参会帐号和密码将在会前两个小时，通过邮件通知。

参会方式

长按识别或扫描二维码报名（免费报名）

联系方式

邮箱：tf@ccf.org.cn

手机：153-1141-9618

电话：010-62600321-22

<<< 上一篇 TF36回顾 | 工业大数据在智能制造领域的应用

【预告】TF37: 基于场景的机器人环境理解与智下一篇 >>>

<<< 下一篇【预告】TF37: 基于场景的机器人环境理解与智