2025年第1期 总第45期
智能语音与语言交互技术以语音、文字作为基础手段实现人机互动,是人工智能的重要研究领域。当前随着深度学习、大模型等的发展演进,智能语音语言交互技术正面临前所未有的发展机遇,同时也伴随着一系列挑战,如语音预处理适应性的增强、语音识别鲁棒性的提升、对话理解生成可信度的提高、情感智能的拟人化、语音合成的个性化与表现力等问题亟待解决。通过深入研究智能语音语言交互技术,不仅可以推动技术创新,解决现有问题,还能进一步拓宽其应用领域,满足社会多元化需求,比如通过大模型智能体推进交互技术的落地,面向下游场景(司法、医疗、社会媒体)的交互建模等。因此,本选题旨在服务与推动智能语音语言交互技术领域的研究工作开展,将CCF数字图书馆相关报告和视频以及其他与选题相关的资源进行聚合,方便会员集中观看学习。
本期主编:凌震华 CCF语音对话与听觉专委秘书长 中国科学技术大学信息科学技术学院教授
王昊奋 CCF自然语言处理专委秘书长 同济大学设计创意学院研究员
x
更多资料>>
回顾过去20年间,语音预处理技术经历了从简单场景到多人交互复杂场景的逐步演变,并结合经典的“鸡尾酒会问题”来探讨未来发展趋势。
从语音预训练、多模态识别以及说话人自适应等角度,对低资源场景下的语音识别所面临的诸多挑战和解决方案进行分析与探讨。
扩散模型已逐渐成为数据生成的核心方法,该视频介绍了其在语音和音效合成方向的前沿进展,并探讨了扩散模型的多种拓展形式。
微软亚洲研究院团队利用编解码器获取语音的离散表征,并在此基础上构建了语音大语言模型,展现了其在上下文学习以及基于极短语音片段复制说话人音色等多方面的强大能力。
介绍了具备跨模态输入输出能力的大语言模型,突破了传统“语音到语音”对话流水线方式(语音识别、文本对话、语音合成)的限制,从而实现模态之间的知识传递。
本研究包括大语言模型的情商测试研究,致力于构建具有自然性、共情能力、有趣性和安全性的拟人大模型,以及基于认知理论的深度对话框架。
以LLM为"大脑",通过智能体与环境的互动来实现复杂目标,同时配备了任务规划、记忆管理、工具使用等核心功能。
以"拟剧论"为理论引导,以电视剧本作为数据基础,并基于多智能模拟方法,建立了一个测试大语言模型社交能力的评测基准。
活动简介活动简介活动简介活动简介活动简介
活动简介活动简介活动简介活动简介活动简介活动简介活动简介
活动简介活动简介活动简介活动简介活动简介活动简介活动简介活动简介活动简介活动简介活动简介活动简介活动简介活动简介
CCF数图焦点第45期
CCF数图焦点第44期
CCF数图焦点第43期
CCF数图焦点第36期
CCF数图焦点第42期
CCF数图焦点第41期
CCF数图焦点第40期
CCF数图焦点第39期
CCF数图焦点第38期
CCF数图焦点第37期
CCF数图焦点-第33期
CCF数图焦点-第32期
CCF数图焦点-第31期
CCF数图焦点-第30期
CCF数图焦点-第29期
CCF数图焦点-第28期
CCF数图焦点-第27期
CCF数图焦点-第26期
CCF数图焦点-第25期
CCF数图焦点-第24期