最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 机器之心发布神经网络配音器,让AI根据配音脚本,自动生成与画面节奏同步的高质量配音

    机器之心发布

    机器之心编辑部

    清华大学与字节跳动智能语音创作团队在业界首次提出神经网络配音设备,让AI根据配音脚本自动生成与画面节奏同步的高品质配音。

    视频配音是一项技术含量很高的专业技能。专业配音演员的声音演绎往往令人印象深刻。现在,人工智能也有望实现这一能力的自动化。

    近日,清华大学与字节跳动智能语音创作团队在业界首次提出神经配音。这项研究让AI可以根据配音脚本自动生成与画面节奏同步的高质量配音。相关论文 Neural Dubber: Dubbing for Videos 根据脚本已入选机器学习和计算神经科学领域顶级学术会议 NeurIPS 2021。

    配音广泛用于影视后期制作,具体指在安静的环境(即录音棚)中重新录制演员对话的后期制作过程。配音常用在两大应用场景:一是替换拍摄过程中录制的对白,比如拍摄场景录制的语音质量不好,或者演员因为某种原因嘴型刚好合适,以及之后需要添加语音;二是配音电影。比如为了方便中国观众,其他语言的视频都被翻译成中文。

    此次清华大学联合字节跳动智创语音团队的研究重点关注第一个应用场景“自动对话替换(ADR)”。在这种情况下,专业配音演员在预先录制的视频中观看表演,并使用适当的韵律(例如口音、语调和节奏)重新录制每一行,以使他们的演讲与预先录制的视频同步。

    为了实现上述目标,该团队定义了一项新任务,即自动视频配音 (AVD),以从给定文本和与视频时间同步的给定视频合成语音。

    以前,业界的很多研究都是生成与给定语音同步的说话者的面部视频(Talking Face Generation)。AVD 任务正好相反。用于生成与视频同步的语音,更适合真实的应用场景,因为影视作品的视频拍摄往往质量很高,不宜修改。

    图 1:自动视频配音 (AVD) 任务的示意图。给定文本和视频作为输入,AVD 任务旨在合成与视频时间同步的语音。这是两个人互相交谈的场景。面部图片为灰色,表示此人当时没有说话。

    清华大学联合字节跳动智创语音团队提出的神经配音,旨在解决自动视频配音(AVD)任务。这是第一个解决 AVD 任务的神经网络模型:能够端到端并行合成与文本中给定视频同步的高质量语音。神经网络配音是一种多模态文本到语音 (TTS) 模型,它利用视频中的嘴巴动作来控制生成语音的韵律,以实现语音和视频同步。此外,这项工作为多说话人场景开发了一个基于图像的说话人嵌入 (ISE) 模块,该模块使神经网络画外音能够根据说话人的面部生成具有合理音色的语音。

    具体技术方法如下:

    Neural Dubber 专门对 AVD 任务建模如下:给定一个音素序列和一个视频帧序列,模型需要预测一个与视频同步的 mel 频谱序列。

    图 2:Neural Dubber 的模型结构。

    Neural Dubber 的整体模型结构如图 2 所示。首先,神经网络画外音应用音素编码器和视频编码器分别处理音素序列和视频帧序列。编码后音素序列成为音素潜在表示序列,视频帧序列成为视频潜在表示序列。然后,将音素潜在表示序列和视频潜在表示序列输入到Text-Video Aligner,得到扩展后的梅尔谱潜在表示序列,其长度与目标梅尔谱序列的长度相同。这项工作解决了文本到视频对齐器中音素和 mel 谱序列长度不一致的问题。在多说话人场景中,该模型从视频帧序列中随机选择一张人脸图像,并将其输入到基于图像的说话人嵌入 (ISE) 模块,以生成基于图像的说话人嵌入。mel谱隐式表示序列被添加到ISE并馈送到方差适配器以添加一些方差信息(例如音高、音量(谱能量))。最后,梅尔谱图解码器将潜在表示序列转换为梅尔谱图序列。

    文本视频对齐器

    文本到视频对齐器(图 2(b))可以找到文本和嘴巴运动之间的对应关系,可用于进一步生成视频同步语音。

    在文本到视频对齐器中,注意力模块学习音素序列和视频帧序列之间的对齐,并生成文本视频上下文特征序列。然后执行上采样操作以将此序列从与视频帧序列一样长到与目标梅尔光谱序列一样长。

    在注意力模块中,一系列视频潜在表示被用作查询。因此,注意力权重由视频明确控制,并实现视频帧和音素之间的时间对齐。获得的视频帧和音素之间的单调对齐有助于合成语音与视频在细粒度(音素)级别上同步。

    之后,文本-视频上下文特征序列被扩展为与目标梅尔谱序列相同的长度。这样,在没有音素和mel谱的细粒度对齐监督的情况下,解决了音素和mel谱序列之间的长度不匹配问题。由于视频帧和音素之间的注意机制,合成语音的速度和韵律由输入视频明确控制,从而实现与视频同步的语音合成。

    基于图像的说话人嵌入

    在真实的配音场景中,配音演员需要为不同的表演者改变音色。为了更好地模拟 AVD 任务的真实情况,本研究提出了一种基于图像的说话人嵌入模块(图 2(c)),旨在利用说话人的面部特征来区分多说话人场景中的合成语音。色调调整。就像人们可以通过外貌(性别、年龄等)大致推断出某人说话的音色一样。

    基于图像的说话人嵌入是一种新型的多模态说话人嵌入,它可以从人脸图片生成说话人嵌入,其中包含说话人的语音特征,可以反映在图像中。ISE 模块利用视频中人脸与声音的自然对应关系,并以自我监督的方式进行训练语音信号处理 c语言,无需对说话者身份进行监督。ISE 模块学习面部和语音特征之间的相关性,使神经配音器能够生成具有合理音色的语音。合理意味着声音特征与从说话者的面部推断的各种属性(例如语音信号处理 c语言,性别、年龄等)相匹配。

    实验和结果

    c语言 scanf 处理回车_语音信号处理 c语言_c语言本身就是其他语言的基础学习c语言不需要基础的

    在单说话人数据集 Chemistry Lectures 和多说话人数据集 LRS2 上的实验表明,Neural Dubber 可以生成与 SOTA 的 TTS 模型相媲美的语音音质。最重要的是,定性和定量评估都表明,神经网络画外音可以控制视频合成语音的韵律,并生成与视频同步的高质量语音。

    评价指标

    由于 AVD 任务旨在合成与给定文本和视频的视频同步的语音,因此语音质量和音视频同步是重要的评估标准。定性地,该研究对测试集进行了平均意见得分 (MOS) 评估,以测量语音质量和音视频同步。对于定量评估,本研究使用两个指标:唇形同步误差 – 距离 (LSE-D) 和唇形同步误差 – 置信度 (LSE-C)。

    单扬声器场景

    研究人员首先在单说话人数据集上进行了实验,将 Neural Dubber 与以下系统进行了比较,包括 1) GT,真实的音频和视频数据;2) GT (Mel + PWG),首先将真实音频转换为 Mel 频谱图,然后使用 Parallel WaveGAN (PWG) 将其转换回音频;3) 快速语音 2 (Mel + PWG); 4) 基于视频的 Tacotron (Mel + PWG) 。为了公平比较,2)、3)、4) 和 Neural Dubber 使用相同的预训练 Parallel WaveGAN。

    表 1:单人场景下自动视频配音的评估结果。

    从结果(如表 1 所示)可以看出,Neural Dubber 在音频质量上与 FastSpeech 2 相当,这表明 Neural Dubber 可以合成高质量的语音。此外,Neural Dubber 在音视频同步方面明显优于 FastSpeech 2 和基于 Video 的 Tacotron,可与 GT(Mel + PWG)系统相媲美,说明 Neural Dubber 可以控制语音与视频的韵律并生成与视频的声音同步。然而,FastSpeech 2 和基于视频的 Tacotron 都不能生成视频同步语音。

    图 3:由以下系统合成的音频梅尔谱图:Ground Truth (GT)、Neural Dubber (ND)、FastSpeech 2(FS2) 和基于视频的 Tacotron (VT)。

    图 3 显示了与上述系统生成的音频的梅尔谱图的定性比较。结果表明,Neural Dubber 生成的音频节奏非常接近真实音频的节奏,即与视频具有高度的同步性。

    多扬声器场景

    该研究还对多说话者数据集 LRS2 进行了相同的定性和定量评估。

    表 2:多说话人场景下自动视频配音的评估结果。

    从结果中可以看出(如表 2 所示),Neural Dubber 在音频质量方面明显优于 FastSpeech 2,证明了 ISE 在多扬声器场景中的有效性。定性和定量评估表明,Neural Dubber 在音视频同步方面远优于 FastSpeech 2,可与 GT(Mel + PWG)系统媲美。这些结果表明,Neural Dubber 可以解决多说话人场景中的自动视频配音 (AVD) 问题,这比单说话人场景更具挑战性。

    证明 ISE 使 Neural Dubber 能够通过人脸图像控制生成语音的音色。该研究使用 Neural Dubber 生成以不同说话者面部图像作为输入的音频剪辑。研究人员从 LRS2 数据集的测试集中随机选择了 12 名男性和 12 名女性进行评估,每人选择 10 张具有不同头部姿势、灯光和化妆的人脸图像。

    图 4:说话者嵌入的可视化。

    从图 4 可以看出,由同一说话者的图像生成的语音形成了一个紧密的簇,而不同说话者的簇彼此分离。此外,从不同性别的人脸图像合成的语音之间存在明显差异。

    与基于嘴部运动的语音生成方法的比较

    与基于唇动的语音生成(Lip-motion Based Speech Generation)模型 Lip2Wav 相比,Neural Dubber 在自动视频配音任务中具有显着优势。

    研究人员使用 STOI 和 ESTOI 来评估语音清晰度,使用 PESQ 来评估语音质量,并使用单词错误率 (WER) 来评估语音发音的准确性。

    表 3:Lip2Wav 和 Neural Dubber 在单说话人场景中的比较。

    如表 3 中的结果所示,Neural Dubber 在语音质量和可懂度方面都优于 Lip2Wav。最重要的是,Neural Dubber 的 WER 比 Lip2Wav 低 4 倍左右。这说明Neural Dubber在发音准确率上明显优于Lip2Wav。Lip2Wav 的 WER 高达 72.70%,说明它误读了很多,这在 AVD 任务中是无法接受的。总而言之,Neural Dubber 在语音清晰度、音质和发音准确度方面明显优于 Lip2Wav,更适合自动视频配音任务。

    清华大学MARS Lab多模态学习实验室简介: MARS Lab多模态学习实验室是清华大学跨学科信息研究所下属的跨学科人工智能实验室,由赵星教授建立并指导。该团队对如何让机器像人类一样能够学习、推理并与多种感官输入交互特别感兴趣。该团队的研究涵盖多模式学习及其应用的基本问题。

    字节跳动智创语音团队简介: 字节跳动智创-语音团队(Speech、Audio and Music Intelligence,SAMI)致力于语音、音频、音乐等技术的研发和产品创新。赋能内容创作与互动,让内容消费与创作更轻松、更愉悦。团队支持语音合成、音频处理与理解、音乐理解与生成等技术方向,以中台形式服务于公司多个业务线,并对外开放成熟的能力和服务。

    项目主页:

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 机器之心发布神经网络配音器,让AI根据配音脚本,自动生成与画面节奏同步的高质量配音

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论