小茶来自奥飞寺
量子位报告 | 公众号QbitAI
Facebook AI (bushi),更准确地说是 Meta AI语言传输指数指的是什么,刚刚发布了自监督语音处理模型 XLS-R,总共支持 128 种语言。
这项技术与 Meta 最新的“元界”愿景息息相关。
互相交谈是人们交流的一种自然方式,而随着语音技术的发展,未来的虚拟世界可以利用我们的技术进行互动,虚拟体验将与物理世界融为一体。
会说人类语言,就是让不同母语的人在元宇宙中进行社交:一个会说英语,一个会说中文,两人可以依靠XLS-R在元界进行无障碍对话。
实际效果如何?
MetaAI 在 HuggingFace 上发布了语音翻译模型的试用版,支持从 22 种语言到 16 种语言的转换。我们先来试试它的英汉翻译效果。
(虽然翻译腔比较厚,但还是准确的。7秒的句子翻译只有1.53秒)
我们知道,世界上有成千上万种语言,而这些语言与 AI 交流并不容易。
通用语料库的丰富程度决定了语言翻译模型的质量,而语音翻译一般侧重于几种资源和不同的语言。然而,由于小语种缺乏语料库,使用这类母语的人往往难以获得较高的 AI 翻译质量。
XLS-R 通过自监督技术对 10 倍以上的语音数据进行训练语言传输指数指的是什么,极大地改进了之前的多语言模型,尤其是小语言的处理。
XLS-R的原理
XLS-R 基于 Facebook 去年发布的 wav2vec 2.0 技术。
wav2vec 2.0 与 BERT 类似,通过预测音频掩码部分中的语音单元进行训练。它们的区别在于语音音频是一个连续的信号,不能轻易清晰地分割成单词或其他单位。
wav2vec 2.0 通过学习 25ms 长的基本单元来解决这个问题,以便能够学习高级上下文表示。
只需一小时的标记训练数据,wav2vec 2.0 就可以在 LibreSpeech 基准的 100 小时子集以及随后的无监督训练数据上达到最先进的水平。
在那之后,Facebook 推出了 wav2vec-U,这是一种完全无监督的高性能语音识别模型,它完全从录制的语音音频和未配对的文本中学习。
为了让 wav2vec-U 学习识别录音中的单词,Facebook 训练了一个 GAN。生成器从嵌入在自我监督表示中的每个音频片段中预测与语言中的声音相对应的音素。
鉴别器负责评估预测的音素序列是否真实。最初,转录很糟糕,但随着时间的推移,随着鉴别器的反馈,转录变得准确。
通过这种方式,它学会了区分生成器的语音识别输出和真实文本。
Facebook 在此基础上使用 53 种语言的 XLSR。
新发布的 XLS-R 语言多达 128 种,语言数量是 XLSR 的两倍多,数据量是 10 倍——总共 43.60,000 小时的语音。
XLS-R 共有 20 亿个参数,在测试的 37 种语言中的大多数中都优于以前的工作。即使在老挝语等小语言的识别中,错误率也能比以前低。
此外,XLS-R 还导致低资源语言和英语之间的翻译有显着改进,例如从印尼语到英语的翻译,其中 BLEU(双语口译质量评估)的准确性平均提高了一倍。
在 CoVoST-2 语音翻译基准测试中,XLS-R 在 21 个英语翻译方向上比以前的技术平均提高了 7.4 BLEU。
从下图可以看出,XLS-R对于低资源语言的提升尤为明显。
微调 XLS-R
XLS-R 只是一个预训练模型,为了更好地服务于特定任务,需要对模型进行微调。
Hugging Face 官方提供了详细的微调教程。
此外,官方还提供了不同参数尺度的语音识别模型,以及15种语言和英语之间的翻译模型供用户下载。
门户网站
官方博客:
GitHub页面:
论文地址:
试用网址:
微调方法介绍:
– 结束-
量子比特QbitAI·头条号签约
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- 欧资源网