CNCC｜现代文本摘要技术研究

阅读量:911 2022-11-27 收藏本文

CNCC2022将于12月8日至10日举办，今年CNCC技术论坛数量达到122个，内容涵盖了“计算+行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月10日举行的【现代文本摘要技术研究】技术论坛。

CNCC2022将解读算力发展趋势，带你洞悉数据价值真谛，与你共议计算领域生态融合与发展！别缺席，等你来，欢迎报名在线参会！

近些年来预训练语言模型的出现极大推动了自然语言处理领域的进步，文本摘要作为自然语言处理领域最经典任务之一，又发生了哪些技术变革？事实一致性、低资源成为新的研究热点；同时，谷歌、亚马逊等互联网公司相继推出面向不同领域的在线摘要服务，为摘要技术的发展建立了新的应用场景，科研人员也对科学文献、对话等全新领域掀起了新的探索热潮。本次“现代文本摘要技术研究”论坛即是希望针对摘要技术最新问题进行研讨，也是希望在大模型技术加持下，摘要任务如何构建具有其自身特色的科学问题和方法模型深入挖掘。为此，特邀五位嘉宾从多个维度入手，分别就：自然语言生成技术、科学文献摘要、摘要的事实一致性研究、对话摘要和低资源文本摘要技术等几方面进行交流探讨。

论坛安排

顺序	报告题目	讲者	单位
1	自然语言生成的未来	黄民烈	清华大学
2	综述式论文生成技术初探	严睿	中国人民大学
3	面向事实一致性的摘要可靠生成	肖欣延	百度
4	对话摘要技术研究	冯骁骋	哈尔滨工业大学
5	面向低资源的文本摘要生成技术	高扬	北京理工大学

论坛主席

秦兵

哈尔滨工业大学社会计算与信息检索研究中心主任/计算学部教授

CCF自然语言处理专委会执行委员。国家重点研发课题、国家自然科学基金重点项目负责人。科技部科技创新2030-“新一代人工智能”重大项目管理专家组专家，中国中文信息学会理事／语言与知识计算专委会副主任／情感计算专委会主任。主要研究方向：自然语言处理，知识图谱，情感计算，文本生成。发表论文100余篇。获中文信息学会钱伟长中文信息处理科学技术奖一等奖、黑龙江省科学技术奖一等奖、黑龙江省科学技术奖二等奖和黑龙江省技术发明奖二等奖。入选“2020年度人工智能全球女性及AI 2000最具影响力学者榜单 ”和“福布斯中国2020科技女性榜 ”。

论坛共同主席

万小军

北京大学教授

北京大学王选计算机研究所博士生导师。研究兴趣包括自动文摘与文本生成、情感分析与语义计算、多语言与多模态NLP等。曾担任计算语言学重要国际期刊Computational Linguistics编委、国际会议EMNLP 2019程序委员会主席，现任CCF-NLP专委会秘书长、中文信息学会理事与NLGIW专委会副主任、TACL与ARR执行编委、NLE编委、JCST编委，多次担任相关领域重要国际会议(ACL、NAACL、EMNLP、EACL，AACL)高级领域主席或领域主席。荣获ACL2017杰出论文奖、IJCAI 2018杰出论文奖。研制推出多款AI写作机器人，如小明、小南、小柯等，应用于多家媒体单位。

报告及讲者介绍

黄民烈

清华大学长聘副教授

获国家人才称号。主要研究兴趣为自然语言生成、对话系统等，在国际顶级会议发表论文超过100篇，多次获得最佳论文或提名（ACL、IJCAI、SIGDIAL等），担任中文信息学会自然语言生成与智能写作专委会（筹）副主任，获吴文俊人工智能科技进步奖一等奖（第一完成人），中文信息学会青年创新奖。获多项国家自然科学基金项目（含重点）支持。

报告题目：自然语言生成的未来

自然语言生成（NLG）已经占据了自然语言处理的半壁江山，在人类的交流通讯中，语言生成也是极其重要的一环。虽然大数据＋大模型研究范式下的语言生成取得了令人惊叹的效果，但以深度学习为基本方法的语言生成模型仍然面临的诸多挑战（如重复、信息量低、臆测、冲突等）。在本报告中，讲者试图通过NLG发展趋势的分析，现代NLG方法存在的本质问题，新的生成范式，探讨现代自然语言生成的未来。

严睿

中国人民大学高瓴人工智能学院长聘副教授

严睿博士入选了中国人民大学杰出学者，智源人工智能研究院智源学者，以及微软亚洲研究院铸星学者。到目前共发表论文100余篇，引用8000余次。多次担任国内外顶级学术会议的领域主席及资深评审人，也多次受邀于国内外顶级学术会议宣讲tutorial报告。

报告题目：综述式论文生成技术初探

根据一系列相关文献，自动生成相关领域的文献综述内容能够方便快捷地为研究者提供特定领域的全面介绍，从而具有极大的研究意义和应用价值。此前的工作多数都依赖抽取式的技术框架，从多篇文章里面抽取原句并重新组合，形成文献综述内容。我们提出了一个文献综述内容的生成式技术方案，主要考虑调研文字生成的顺序、逻辑、以及比较关系，自动生成文献综述部分，并通过实验验证我们的方法取得了比以前方法更优的效果。

肖欣延

百度杰出架构师，正高级工程师，内容生成与AIGC 技术负责人

长期从事自然语言处理相关研究和应用，已发表CCF A/B类论文30余篇，获授权发明专利50余项并获中国专利优秀奖1项，相关成果已在百度的搜索、推荐、百家号、小度、输入法、百度云等业务中得到广泛应用。

报告题目：面向事实一致性的摘要可靠生成

随着大模型技术的迅速发展，AI已经能够生成流畅的自动摘要，然而自动生成的摘要文本中容易出现不符合输入文章或者背景信息的错误事实描述，这成为了生成式摘要技术应用落地的主要障碍之一。为此，本报告介绍自动摘要中的事实一致性问题，然后介绍我们基于图模型和基于对抗训练的摘要可靠生成方法，并对未来进行展望。

冯骁骋

哈尔滨工业大学计算学部副教授

哈尔滨工业大学智能科学与技术系副主任。研究兴趣包括自然语言处理、文本生成、机器翻译等。担任CCF 哈尔滨YOCSEF副主席、鹏城国家实验室双聘副研究员、CIPS自然语言生成与智能写作专委会副秘书长等。已发表CCF A/B类论文30余篇，引用2500余次；入选中国科协第六届青年人才托举工程，曾获全国性学会中国中文信息学会优秀博士学位论文奖、黑龙江省科技进步二等奖一项。与华为、腾讯、科大讯飞等国际一流互联网公司保持长期科研合作关系。

报告题目：对话摘要技术研究

随着社会的发展和通讯技术的进步，对话类数据日益增多。对话摘要技术可以从复杂的对话数据中提取关键信息，从而大大降低理解对话数据的难度，更好地辅助下游任务，其核心难点在于帮助模型理解对话数据。该任务近年来受到了学术界和工业界的广泛关注，论文数量呈指数级增长，不同类型的对话摘要数据集也相继推出。本次讲解将对现有对话摘要任务进行系统梳理，并结合已开展工作重点围绕知识指导的对话摘要技术进行讲解。

高扬

北京理工大学计算机学院副教授

2015年获得昆士兰科技大学数据科学专业博士学位。研究兴趣包括语义表示、抽取、生成的计算模型，促进文本摘要、跨语言应用、图像/视频描述生成、风格迁移、智能问答等应用。在ACL、WWW, EMNLP、IJCAI、SIGIR、TKDE、TNNLS等国际会议及期刊发表论文40余篇。参研多项国家重点研发于自科基金项目等。担任中文信息学会自然语言生成与智能写作专委会副秘书长等。参与获得中国电子学会科技进步奖一等奖，国防科技进步二等奖。

报告题目：面向低资源的文本摘要生成技术

借助于大规模预训练语言模型强大的表征能力和语言生成能力，系统在多模态领域、自然语言理解、生成任务上均取得了巨大成功。然而，在少样本情境下的网络模型学习依然有待研究。此次报告将从三个方面关注低资源任务的解决方案：1）挖掘无监督数据和预训练模型中包含的通用知识；2）设计优化方案生成高质量的伪标签数据，3）利用多任务的关联性提升少样本方面的效果，并重点介绍少样本学习在文本摘要生成任务的独特性。

CNCC是级别高、规模大的高端学术会议，探讨计算及信息科学技术领域最新进展和宏观发展趋势，展示计算领域学术界、企业界最重要的学术、技术成果，搭建交流平台，促进科技成果转换，是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra，以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士及专家，还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家，CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是：算力、数据、生态。

CNCC2022将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动，让参会者畅快交流，燃爆全场。如此盛会，岂能缺席！等你来，马上行动，欢迎参会报名！

<<< 上一篇 CNCC｜构建医康养服务融合的新模式

2022年CCF会士评选结果揭晓下一篇 >>>

<<< 下一篇 2022年CCF会士评选结果揭晓