智能语音与语言交互技术

编者寄语

智能语音与语言交互技术以语音、文字作为基础手段实现人机互动，是人工智能的重要研究领域。当前随着深度学习、大模型等的发展演进，智能语音语言交互技术正面临前所未有的发展机遇，同时也伴随着一系列挑战，如语音预处理适应性的增强、语音识别鲁棒性的提升、对话理解生成可信度的提高、情感智能的拟人化、语音合成的个性化与表现力等问题亟待解决。通过深入研究智能语音语言交互技术，不仅可以推动技术创新，解决现有问题，还能进一步拓宽其应用领域，满足社会多元化需求，比如通过大模型智能体推进交互技术的落地，面向下游场景（司法、医疗、社会媒体）的交互建模等。因此，本选题旨在服务与推动智能语音语言交互技术领域的研究工作开展，将CCF数字图书馆相关报告和视频以及其他与选题相关的资源进行聚合，方便会员集中观看学习。

本期主编：凌震华 CCF语音对话与听觉专委秘书长中国科学技术大学信息科学技术学院教授

王昊奋 CCF自然语言处理专委秘书长同济大学设计创意学院研究员

目录

面向多人交互场景的语音预处理技术

杜俊,

回顾过去20年间，语音预处理技术经历了从简单场景到多人交互复杂场景的逐步演变，并结合经典的“鸡尾酒会问题”来探讨未来发展趋势。

格式：

视频

低资源语音识别-AI + 辅具：语音，一座沟通的美好桥梁

万根顺,

从语音预训练、多模态识别以及说话人自适应等角度，对低资源场景下的语音识别所面临的诸多挑战和解决方案进行分析与探讨。

格式：

文稿

扩散模型与语音及音效合成

陈泽华,

扩散模型已逐渐成为数据生成的核心方法，该视频介绍了其在语音和音效合成方向的前沿进展，并探讨了扩散模型的多种拓展形式。

格式：

视频

面向零样本语音合成和翻译的语音大模型

刘树杰,

微软亚洲研究院团队利用编解码器获取语音的离散表征，并在此基础上构建了语音大语言模型，展现了其在上下文学习以及基于极短语音片段复制说话人音色等多方面的强大能力。

格式：

文稿

SpeechGPT：让大语言模型具有内生的语音对话能力-新一代人工智能背景下语音技术的机遇与挑战

邱锡鹏,

介绍了具备跨模态输入输出能力的大语言模型，突破了传统“语音到语音”对话流水线方式（语音识别、文本对话、语音合成）的限制，从而实现模态之间的知识传递。

格式：

视频

超拟人大模型-预训练大模型的挑战与未来

黄民烈,

本研究包括大语言模型的情商测试研究，致力于构建具有自然性、共情能力、有趣性和安全性的拟人大模型，以及基于认知理论的深度对话框架。

格式：

文稿

大语言模型驱动的多智能体交互

户保田,

以LLM为"大脑"，通过智能体与环境的互动来实现复杂目标，同时配备了任务规划、记忆管理、工具使用等核心功能。

格式：

文稿

大模型驱动智能体的社交能力评估

复旦DISC,

以"拟剧论"为理论引导，以电视剧本作为数据基础，并基于多智能模拟方法，建立了一个测试大语言模型社交能力的评测基准。

格式：

文章

往期回顾

查看全部

智能语音与语言交互技术

CCF数图焦点第45期

元宇宙背景下的虚拟现实...

CCF数图焦点第44期

数据治理技术研究

CCF数图焦点第43期

大模型芯片设计关键技术...

CCF数图焦点第36期

图、网络、解空间的连通...

CCF数图焦点第42期

数字服务的精准、智能化...

CCF数图焦点第41期

生成式大模型技术

CCF数图焦点第40期

形式化方法赋能计算机其...

CCF数图焦点第39期

提高高性能计算易用性

CCF数图焦点第38期

智能物联与群智计算

CCF数图焦点第37期

优秀博士学位论文激励计...

CCF数图焦点-第33期

中国互联网学术年会

CCF数图焦点-第32期

时空数据管理

CCF数图焦点-第31期

计算机网络教学与网络工...

CCF数图焦点-第30期

以学科竞赛为驱动的课程...

CCF数图焦点-第29期

社会认知计算

CCF数图焦点-第28期

智能化时代的计算与存储...

CCF数图焦点-第27期

第十届中国互联网专委会...

CCF数图焦点-第26期

工业互联网安全

CCF数图焦点-第25期

集成芯片和Chiplet芯粒...

CCF数图焦点-第24期