语音合成是人机交互领域的热门研究方向。深度学习时代以来,其研究重心由低效的传统方法转向基于神经网络的端到端语音合成技术,但在小语种语料数据、目标说话人语音训练数据或大型情感语音数据集收集困难的低数据资源情况下,构建成熟的语音合成系统仍是研究难点。故对语音合成的经典模型做分类介绍,围绕低资源问题的国内外研究现状做系统综述。从语音合成系统的组成结构与模型训练角度,分别阐述近年提升语音合成模型总体性能的主流技术,并总结了适用于语音合成不同任务的包含多种语言、多种情感、多位说话人的各类开源语音数据集。对应用深度学习和机器学习如迁移学习、元学习、数据增广等手段的解决低资源语音合成方法进行概述分析与优缺点比较,简要介绍少样本场景下的说话人自适应、语音克隆与转换等技术。对缓解低资源语音合成问题的可行研究方向进行探讨与展望。
合成语音的滥用导致了诸多现实问题,研究相应的鉴伪技术对于保护公民人身财产安全、保障社会与国家安全具有重大意义。传统的合成语音检测多采用手工设计特征与后端分类器相结合的方式,前端手工特征设计涉及复杂的先验知识,使用单一手工特征模型检测效果不理想,而进行多特征融合则导致模型参数量较大。同时,目前多数检测方法还存在跨数据集泛化性差的问题。为解决上述问题,提出了一种基于改进深度残差收缩网络的端到端合成语音检测方法。融合通道注意力机制重新设计自适应阈值学习模块,提高了阈值学习的精度;设计并引入帧注意力机制模块,为不同的帧赋予不同的关注程度,提高了模型的特征选择能力;设计并引入了具有两种超参数的改进小波阈值函数,增强阈值化模块抑制无关特征的能力;设计了一种基于改进深度残差收缩网络端到端合成语音检测网络,输入原始语音即可判别其是否为合成语音。基于ASVspoof2019 LA数据集的对比实验结果显示,所提方法将基线模型的等错误率与最小串联检测成本函数分别降低了85%与84%。基于ASVspoof2015 LA数据集的跨库测试结果验证了所提方法的泛化性能。
本报告介绍了电影音频修复应用场景下的可控语音合成技术应用。涵盖了历史音频修复的传统方法与存在的问题,图音转换胶片音轨提取方式的现状与问题。讲者通过神经网络语音合成技术进行音频修复,修复质量得到了显著提升。
随着人工智能生成内容(AIGC)技术的高速发展,音视频内容生成已从早期的单一模态功能实现迈向跨模态情感智能融合的新阶段。另外,音视频内容生成在影视工业、互动媒体、数字教育等领域对专业化、人性化音视频内容的需求激增。我将主要介绍近期在音视频内容生成的相关工作,主要包括跨模态的拟人化有声书生成、长视频配音以及舞蹈视频配乐的工作。此外,中文线索语系统通过唇型与手势编码辅助听障人士交流,我将针对中文线索语生成与识别领域,阐述跨模态互学习框架的创新应用:通过参数高效低秩Transformer架构实现多模态快速交互,显著提升识别效率;同时在线索语视频生成模块创新融合思维链提示学习与扩散模型,基于大语言模型解析文本与手势特征的复杂关联,有效提升线索语动作的准确度与系统鲁棒性。
随着以 Next-token prediction 为代表的大模型技术迅猛发展,其应用已从单一语言模型快速拓展至多模态领域。本报告以语言模型为切入点,系统介绍多模态场景下生成与理解技术的演进脉络,重点围绕语音、图像两大模态,探讨前沿多模态模型的架构设计思路,并展望未来核心研究方向。