最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 小米集团首席语音科学家DanielPovey正式推出语音识别领域执牛耳者

    作者 | 艳艳

    8 月 31 日,Daniel Povey 作为小米集团首席语音科学家正式推出新一代 Kaldi。

    Daniel Povey 是语音识别领域的领导者。他主要开发和维护的开源工具 Kaldi 是业界公认的语音识别框架的基石。他也被称为 Kaldi 的父亲。

    2019 年,Daniel 从约翰霍普金斯大学语言与语音处理中心离职。在Facebook、美团、滴滴、快手等众多互联网巨头抛出的橄榄枝中,他选择了小米,开始带领小米语音技术团队的发展。新一代的 Kaldi。

    加入小米后,行业开发者一直密切关注丹尼尔的研究动向。

    昨天,Daniel现身发布会,宣布新一代Kaldi已经完成所有子项目的布局。“新一代 Kaldi 的目标不仅仅是赶上或略微领先于现有的语音识别库,而是从根本上改变语音识别的实现方式语音信号处理 c语言,”他说。

    据悉,经过近一年的技术研发,Daniel团队已经完成了所有模块的开发和更新,新一代Kaldi在Librispeech数据集上的单词错误率已经下降到2.57 %; Kaldi 缺乏灵活性且过于笨重;作为核心组件,k2不仅可以用于语音识别,还可以用于手写文本识别等其他任务。

    1 兼容PyTorch,提高识别准确率

    Kaldi 集成了多种语音识别模型,包括 Hidden Markov 和最新的深度学习神经网络,自 2011 年发布以来,下载量已超过 2 万次。无论是工业界还是学术界,几乎所有语音团队都在使用 Kaldi 引擎开发智能解决方案,包括麻省理工学院、哈佛、清华、微软、谷歌、Facebook等。

    作为语音识别领域的“老前辈”,Kaldi 也急需更新迭代。

    Daniel在媒体见面会上坦言,Kaldi第一版的旧代码库已经难以满足机器学习开发的需求,用户需要更轻量更灵活的源码,以及兼容PyTorch等主流框架的工具包.

    新一代Kaldi的研发始于2019年,去年完成了k2和Lhotse模块的研发。Daniel 也在 2020 MIDC 大会上进行了演示,但当时 Icefall 模块只是一个初步概念。今年,研发团队进一步完善了k2和Lhotse模块,并正式发布了基于两者的Icefall项目。

    Daniel表示,新一代Kaldi相比第一代Kaldi是一个全新的代码库,主要由C++和CUDA编写;它支持 Python 调用;后端也被之前的自定义代码 PyTorch 所取代。

    在发布会上,Daniel 团队不仅展示了如何使用 k2 和 Lhotse 实现现有的各种语音识别模型,例如基于 Transformer/Conformer 的 CTC 和 LF-MMI,还强调了 k2 如何从根本上改变人们的实现方式语音识别。

    “我们实现了多通道解码的示例以及我们所说的‘双向建模’”。Daniel 兴奋地说,基于这种多层模型的优势,新一代的 Kaldi 可以大大提高语音识别模型的建模能力,从而降低单词错误率。目前新一代 Kaldi 在 LibriSpeech 数据集上的单词错误率为 2.57%。

    值得一提的是,大牛团队已经在k2中实现了所有FSA操作的可推导,用户只需几十行代码就可以完成复杂的多层模型结构。同时,它们也为用户提供了很大的“定制”空间,比如在网络中加入手机嵌入信息,支持放心识别等用户自己的想法都可以基于k2实现。

    Daniel 表示,他希望通过新一代 Kaldi 为语音识别领域打开一扇新的大门。

    2 引入Python以提高灵活性

    新一代Kaldi分为三个部分:洛子峰、冰瀑和k2。Daniel Povey博士在发布会上表示,新一代Kaldi的独立设计是为了减少耦合,方便用户使用。更重要的是,这有助于扩展组件使用的灵活性。

    例如,用于数据准备的 Lhotse 既可以用于 Icefall 项目,也可以用于任何其他语音识别库来处理音频和文本数据,

    大牛团队在发布会上介绍了洛子峰、冰瀑和k2这三个部分的更新细节。

    Lhotse 摒弃了传统的 shell 脚本,采用了更方便易用的 Python 语言。通过通用灵活的接口设计,满足包括语音识别、语音合成等各种语音任务的需求,方便用户轻松基于洛子语实现自己特定任务的接口,操作各种音频元数据和音频. 文本。

    Lhotse 引入了 Audio Cuts 的概念,它自动将训练数据组织成一组组 Cuts,并基于此表示,提供数据混合、裁剪、增强和特征提取等 on-the-fly 操作,以免影响数据处理效率的前提下,减少数据存储所需的空间。

    此外,洛子峰还为许多公共数据集提供数据处理脚本。用户可以直接使用这些脚本进行相关语音任务的数据处理,大大降低了用户在某个数据集上进行实验的前期成本。

    语音信号处理 c语言_c语言 scanf 处理回车_语音滤波c语言

    “我相信在不久的将来,随着新一代Kaldi的推广和普及,洛子峰甚至可能成为语音领域应用最广泛的数据准备工具。” 丹尼尔期待的说道。

    作为训练脚本的集合,Icefall 和 Lhotse 一样是一个纯 Python 项目。

    用过Kaldi的人都知道,Kaldi中有大量基于不同数据集的示例脚本,大大降低了用户的学习成本。

    但这也带来了一个缺点:示例脚本集合太大,代码耦合太紧,导致维护成本高。

    考虑到这一点,Daniel 表示 Icefall 并不是大量脚本的盲目集合,而是在提取常用组件的同时,独立组织不同数据集的示例脚本,方便用户学习和使用。

    另外,由于数据准备部分单独放在Lhotse项目中,核心计算部分单独放在k2中,Icefall项目只需要关注语音识别模型的结构定义部分,减少了耦合整个语音识别过程,并有利于网络结构。重用。

    k2 是新一代 Kaldi 的核心。它的贡献是将加权有限状态传感器 (WFST) 和相关算法无缝集成到基于 Autograd 的机器学习工具包中,例如 PyTorch(完全支持)和 TensorFlow。

    WFST是语音识别领域的核心数据结构,可以用来构建“音标->单词->句子”等状态转移概率图。

    支持WFST推导意味着我们可以做很多以前很难甚至不可能的事情,比如消除之前语音识别任务中训练和解码过程的不匹配,多轮(可推导)语音识别过程。,在声学网络中嵌入任意辅助信息等。

    同时,k2还支持很多现有的语音识别模型,如CTC、LF-MMI、RNN-T等。

    值得一提的是,去年 Facebook 发布了一个类似 k2 的图网络建模 GTN 框架。相比之下,k2 实现了更多 WFST 相关的算法,可以高效地支持 GPU(GTN 目前只支持 CPU)。GPU 实现意味着更快的语音识别模型训练和更高效的解码。新一代kaldi的解码速度已经是实时的300倍左右。此外,在语音识别的基础上,k2还可以应用于手写文本识别等其他seq-to-seq任务。

    3 全面赋能小米语音产品

    在万物互联的时代,智能语音交互发挥着越来越重要的作用。嗅觉敏锐的小米,早在2017年就注意到了这个蓝海市场。在丹尼尔加入之前,小米已经逐步组建了自己的语音技术团队,并推出了智能语音产品——小爱音箱。2019年初,小米创始人雷军提出“手机+AIoT”双引擎发展战略,为小米在语音识别领域的发展指明了一条可行的路径。

    “新一代Kaldi将在明年应用于小米所有的智能语音产品,”丹尼尔告诉媒体。他表示,新一代Kaldi可以应用于各种场景下的不同语音模型,比如远近场语音唤醒、离线语音识别、说话人识别等通用模型,以及口语评估等,语言识别、语音情感识别等。

    以小米小爱为例,“通过它,用户可以连接和交互多种AIoT设备:智能音箱、手机、电视、智能手表、儿童故事机、汽车后视镜等。”

    不仅是小米语音信号处理 c语言,所有企业、开发者和普通用户都可以继续享受新一代Kaldi的核心技术。Daniel 表示,之所以选择加入小米,是因为小米承诺 Kaldi 可以继续做一个开源项目。“小米是一家非常重视开源和开源的稳定公司,承诺我永远做开源项目,这是我最好的选择”

    Kaldi 从一开始就是一个开源的语音识别工具包。丹尼尔一直坚持开源工作,鼓励更广泛的用户自由使用、复制和修改源代码,推动智能语音技术的发展。

    新一代的 Kaldi 仍然使用高效的 C++ 代码实现。由于 k2 的 C++ 代码被封装到 Python 中,因此可以使用纯 Python 代码完成模型的训练迭代。

    Daniel表示,基于Icefall中的示例脚本,开发者可以很容易地根据自己公司产品的数据集进行修改,然后快速构建在线数据反馈和模型自动迭代更新的流程,这将大大缩短模型更新时间。 . 循环。

    随着新一代Kaldi的发布以及在小米产品线中的逐步落地,相信在不久的将来,小米将携手其他公司,为普通用户带来更加完善的AIoT产品体验。

    正如崔宝秋博士在去年举办的Kaldi线下交流会上所说,这将是围绕Kaldi的“四赢”局面:Kaldi项目赢,小米语音赢,全球Kaldi社区赢,所有中小与Kaldi相关的公司获胜!

    4 关于丹尼尔

    丹尼尔可以说是语音识别领域的标志性人物。除了开发 kaldi 之外,他还对语音识别做出了许多科学贡献,包括协助早期开发判别训练(现在称为序列训练)。自1999年语音识别研究成果发表以来,他的论文被引用超过30000次。正因为如此,丹尼尔离开约翰霍普金斯大学,引发了全球科技巨头之间的人才大战。

    Daniel 于 2012 年加入约翰霍普金斯大学,担任语言和语音处理中心的副教授。在此之前,他曾在 IBM Research 和 Microsoft Research 从事计算机语音识别研究。

    2019年10月,丹尼尔正式加入小米,担任小米集团首席语音科学家。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 小米集团首席语音科学家DanielPovey正式推出语音识别领域执牛耳者

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论