语音合成技术的前沿进展：从文语转换到多模态生成

编者寄语

语音合成又称文语转换，旨在将输入文本转换为自然流畅的语音。近年来，语音合成技术取得了令人瞩目的突破性进展，尤其是随着深度学习、大模型等先进方法的引入，最新的语音合成系统不仅能生成与真人几乎无异的自然语音，还能对音色、情感等语音属性进行灵活控制，实现富有表现力的个性化合成。以上技术发展也极大拓展了语音合成的应用场景，从智能语音助手、有声内容创作，到虚拟人生成、多模态人机交互等，语音合成正在成为推动人工智能普及和落地的关键技术之一，受到学术界和工业界的广泛关注。当前，语音合成技术的潜在安全风险也日益引起重视，相应的合成语音检测等风险应对技术正成为研究热点；此外，语音合成实现的文本到语音转换这一单一功能，已无法满足当前人工智能生成内容（AIGC）应用对于音视频多模态生成结果的需求，跨模态生成技术成为语音合成未来重要的发展方向之一。

本选题旨在推动语音合成技术研究进展与实践经验的分享与讨论，将CCF数字图书馆相关报告和视频以及其他与选题相关的资源进行聚合，方便会员集中观看学习。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：凌震华 CCF语音对话与听觉专委会秘书长中国科学技术大学信息科学技术学院教授

吴锡欣 CCF语音对话与听觉专委会执行委员香港中文大学助理教授

作为语音领域一个重要的研究方向，语音合成致力于将文本转化为语音。随着深度学习技术的快速发展，语音合成的目的早已不仅仅是合成一段“能听懂”的音频这么简单，情感的加入往往能使语音变得更加具有表现力。基于此，情感语音合成在语音中加入不同的情感并对情感进行调控，以生成灵活且准确的情感语音。从情感语音合成中的几个关键科学问题出发，本文分别对近几年来基于情感迁移、情感强度控制和情绪混合的发展进行了总结分析，并介绍了情感语音合成的相关数据集和评价指标，最后对情感语音合成进行了展望。

格式：

文章

低资源条件下的语音合成方法综述

张佳琳，买日旦·吾守尔，古兰拜尔·吐尔洪,

语音合成是人机交互领域的热门研究方向。深度学习时代以来，其研究重心由低效的传统方法转向基于神经网络的端到端语音合成技术，但在小语种语料数据、目标说话人语音训练数据或大型情感语音数据集收集困难的低数据资源情况下，构建成熟的语音合成系统仍是研究难点。故对语音合成的经典模型做分类介绍，围绕低资源问题的国内外研究现状做系统综述。从语音合成系统的组成结构与模型训练角度，分别阐述近年提升语音合成模型总体性能的主流技术，并总结了适用于语音合成不同任务的包含多种语言、多种情感、多位说话人的各类开源语音数据集。对应用深度学习和机器学习如迁移学习、元学习、数据增广等手段的解决低资源语音合成方法进行概述分析与优缺点比较，简要介绍少样本场景下的说话人自适应、语音克隆与转换等技术。对缓解低资源语音合成问题的可行研究方向进行探讨与展望。

格式：

文章

改进深度残差收缩网络的端到端合成语音检测

曾高俊、芦天亮、任英杰、李御瑾、彭舒凡,

合成语音的滥用导致了诸多现实问题，研究相应的鉴伪技术对于保护公民人身财产安全、保障社会与国家安全具有重大意义。传统的合成语音检测多采用手工设计特征与后端分类器相结合的方式，前端手工特征设计涉及复杂的先验知识，使用单一手工特征模型检测效果不理想，而进行多特征融合则导致模型参数量较大。同时，目前多数检测方法还存在跨数据集泛化性差的问题。为解决上述问题，提出了一种基于改进深度残差收缩网络的端到端合成语音检测方法。融合通道注意力机制重新设计自适应阈值学习模块，提高了阈值学习的精度；设计并引入帧注意力机制模块，为不同的帧赋予不同的关注程度，提高了模型的特征选择能力；设计并引入了具有两种超参数的改进小波阈值函数，增强阈值化模块抑制无关特征的能力；设计了一种基于改进深度残差收缩网络端到端合成语音检测网络，输入原始语音即可判别其是否为合成语音。基于ASVspoof2019 LA数据集的对比实验结果显示，所提方法将基线模型的等错误率与最小串联检测成本函数分别降低了85%与84%。基于ASVspoof2015 LA数据集的跨库测试结果验证了所提方法的泛化性能。

格式：

文章

历史电影音频修复中的可控语音合成

王雨田,

本报告介绍了电影音频修复应用场景下的可控语音合成技术应用。涵盖了历史音频修复的传统方法与存在的问题，图音转换胶片音轨提取方式的现状与问题。讲者通过神经网络语音合成技术进行音频修复，修复质量得到了显著提升。

格式：

视频

情智一体的音视频内容生成研究进展

刘李,

随着人工智能生成内容（AIGC）技术的高速发展，音视频内容生成已从早期的单一模态功能实现迈向跨模态情感智能融合的新阶段。另外，音视频内容生成在影视工业、互动媒体、数字教育等领域对专业化、人性化音视频内容的需求激增。我将主要介绍近期在音视频内容生成的相关工作，主要包括跨模态的拟人化有声书生成、长视频配音以及舞蹈视频配乐的工作。此外，中文线索语系统通过唇型与手势编码辅助听障人士交流，我将针对中文线索语生成与识别领域，阐述跨模态互学习框架的创新应用：通过参数高效低秩Transformer架构实现多模态快速交互，显著提升识别效率；同时在线索语视频生成模块创新融合思维链提示学习与扩散模型，基于大语言模型解析文本与手势特征的复杂关联，有效提升线索语动作的准确度与系统鲁棒性。

格式：

视频