编者寄语

智能语音语言交互技术以语音、文字作为基础手段实现人机互动,是人工智能的重要研究领域。当前随着深度学习、大模型等的发展演进,智能语音语言交互技术正面临前所未有的发展机遇,同时也伴随着一系列挑战,如语音预处理适应性的增强、语音识别鲁棒性的提升、对话理解生成可信度的提高、情感智能的拟人化、语音合成的个性化与表现力等问题亟待解决。通过深入研究智能语音语言交互技术,不仅可以推动技术创新,解决现有问题,还能进一步拓宽其应用领域,满足社会多元化需求,比如通过大模型智能体推进交互技术的落地,面向下游场景(司法、医疗、社会媒体)的交互建模等。因此,本选题旨在服务与推动智能语音语言交互技术领域的研究工作开展,将CCF数字图书馆相关报告和视频以及其他与选题相关的资源进行聚合,方便会员集中观看学习。

本期主编:凌震华  CCF语音对话与听觉专委秘书长 中国科学技术大学信息科学技术学院教授

                 王昊奋  CCF自然语言处理专委秘书长  同济大学设计创意学院研究员





面向多人交互场景的语音预处理技术

回顾过去20年间,语音预处理技术经历了从简单场景到多人交互复杂场景的逐步演变,并结合经典的“鸡尾酒会问题”来探讨未来发展趋势。

格式:
视频
低资源语音识别-AI + 辅具:语音,一座沟通的美好桥梁

从语音预训练、多模态识别以及说话人自适应等角度,对低资源场景下的语音识别所面临的诸多挑战和解决方案进行分析与探讨。

格式:
文稿
扩散模型与语音及音效合成

扩散模型已逐渐成为数据生成的核心方法,该视频介绍了其在语音和音效合成方向的前沿进展,并探讨了扩散模型的多种拓展形式。

格式:
视频
面向零样本语音合成和翻译的语音大模型

微软亚洲研究院团队利用编解码器获取语音的离散表征,并在此基础上构建了语音大语言模型,展现了其在上下文学习以及基于极短语音片段复制说话人音色等多方面的强大能力。

格式:
文稿
SpeechGPT:让大语言模型具有内生的语音对话能力-新一代人工智能背景下语音技术的机遇与挑战

介绍了具备跨模态输入输出能力的大语言模型,突破了传统“语音到语音”对话流水线方式(语音识别、文本对话、语音合成)的限制,从而实现模态之间的知识传递。

格式:
视频
超拟人大模型-预训练大模型的挑战与未来

本研究包括大语言模型的情商测试研究,致力于构建具有自然性、共情能力、有趣性和安全性的拟人大模型,以及基于认知理论的深度对话框架。

格式:
文稿
大语言模型驱动的多智能体交互

以LLM为"大脑",通过智能体与环境的互动来实现复杂目标,同时配备了任务规划、记忆管理、工具使用等核心功能。

格式:
文稿
大模型驱动智能体的社交能力评估

以"拟剧论"为理论引导,以电视剧本作为数据基础,并基于多智能模拟方法,建立了一个测试大语言模型社交能力的评测基准。

格式:
文章

本期编委成员