最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 如果穿越回去你问人什么是“人工智能”,他们可能会给你一个的回答

    没有人知道人工智能,但二十年前,绝对不是这样。

    如果你回去问人家什么是“人工智能”,他们可能会给你一个让你玩的答案——互联网有记忆,搜索引擎告诉我们,在21世纪初的中国互联网上, 《人工智能》《智能》是2001年上映的科幻电影,由史蒂文·斯皮尔伯格执导。如果你想看人工智能相关的新闻,你可以在新浪上找到2004年唯一留下的痕迹:数码相机中的“人工智能”自动对焦、电子游戏中的“人工智能”对手玩家、艾伦·图灵对人工智能的“图灵测试”智力…

    我们对人工智能的期望远不止于此。让科技赶上人类的想象力,是一代又一代科学家的时代任务。

    刘冬雨|作者

    放大灯团队|策划

    拿下假人

    今天很多科技公司都在尝试推出的“虚拟人”或“数字人”,可能是我们能想到的人工智能技术的合成器之一。一个合格的虚拟人有一个合成的和复杂的形象(可能是基于真人,也可能是凭空创造的,可能是三维的,也可能是二维的)灵魂机器的时代:当计算机超过人类智能时,会听会说,说话正确,并有匹配的表情和手势。无缝的。TA可能出现在新闻播报、教育陪伴等领域,实现更加个性化、跨学科的知识和生活常识内容输出;TA也可能出现在现场娱乐、营销代言等领域,我们希望它永远不会翻车,不要误会,粉丝和品牌也不必警惕。

    但这很难。虚拟人的每一个动作都可能是计算机科学家二十年前开始研究的一项工作。

    例如,让虚拟人“说话”是一项相当古老的工作。1999年,科大讯飞刚刚成立的时候,他们最重要的技术就是让计算机发出合成语音。但从“能说”到“说得更好”,成为了至今仍在优化升级的作品。

    今天的虚拟人,他们的合成声音更加自然,我们通常用0到5分来标记语音的自然度,满分5分是优秀播音员的水平,科大讯飞达到了相当于去年4.5分的水平。然而,数字人类所需的对话和表达能力甚至不是一个自然问题。纯语音合成系统无法解决。还需要内容理解、情感表达和综合预测,这也是当前行业研究的热点之一。一。

    还有方言合成和小语种外语语音合成,两者都需要语言学家告诉机器这些特定方言和语言的知识。在刚刚过去的科大讯飞1024开发者节上,科大讯飞高级副总裁胡国平表示,今天科大讯飞有24种语言用于语音合成。方言和小语种的成功合成,反过来又推动了这两类语音识别的工作——首先合成语音,然后交给语音识别系统进行训练,它允许 100 小时的监督数据和未标记文本训练,达到原始10000小时数据的训练效果。

    在近日举行的国际低资源多语言语音识别大赛OpenASR中,科大讯飞与中科大语音与语言信息处理国家工程实验室的联合团队获得了15种语言的比赛第一名和22首曲目。

    小样本训练(科大讯飞也称为个性化语音合成)也是近年来语音合成技术的突破之一。你说一个句子,系统可以模仿你的声音来合成它。这和我们有什么关系?个性化语音已进入您的日常生活。比如导航APP可以录制自己的导航语音包,就离不开这种小样本的学习模式;如果你将来需要在数字世界中建立一个虚拟化身,让它像你一样说话,显然这项技术有它的一席之地。

    也喜欢“唱歌”。科大讯飞1024开发者大会上,一位“虚拟人”上台展示了真人语音对话,她甚至会唱歌——让我们回到世纪之交,2000年,雅马哈公司开始研发一款软件让电脑唱歌的“VOCALOID”。

    几年后,“初音未来”这个基于VOCALOID系统的音库,已经成为当今业界关于“虚拟人”和“虚拟偶像”讨论中不可回避的名字。很多崇尚虚拟偶像的媒体不会告诉你的是,她只是一个木偶,编曲告诉她唱什么、怎么唱,需要细化到每一个音节都有很多参数来指定她来工作,即便如此,你仍然可以听到电子歌手的声音。至于声音以外的形象,她并不是官方塑造的产物,而是在创作者的二次创作下,逐渐有了更清晰的造型,更完整的故事和人物。

    今天的虚拟人呢?他们已经学会了自主完成唱歌的任务,比如科大讯飞的“虚拟人爱Plus”和独立于微软的“小冰”。这也是你能看到的人工智能。

    虚拟人“爱家”

    今天的虚拟人需要能够听懂人类的语音,这是一个比较长的距离。

    2002年,科大讯飞的科学家们开始尝试让计算机理解声音——从普通话能力测试的答案开始。

    为什么要考普通话水平?当然,因为语音识别并不容易,所以需要找一个更简单的步骤。你想象这两个任务:

    A. 让电脑直接听你说话,猜你在说什么;

    湾。让计算机提前知道你在读什么,如果你读对了,它就会听到。

    哪个更容易实现?当然是B。这就是技术路线“可达”的原因,但还有另一个谜团。

    在科大讯飞学习语音技术十年的科大讯飞人工智能研究院副院长潘佳也告诉我们,普通话评分测试还有一个特点:它的答题纸在录音棚里,使用合适的设备,让考生尽可能标准地阅读内容。在语音识别的初始阶段,工程师必须从这种无限接近理想情况的高质量语音评价入手。

    让电脑听懂声音,经过几年的技术孵化,很快就投入到了普通话水平测试中。为什么一定要掌握这项技术,让机器给人打分?事实上,口语考试的评分工作量远远超过任何其他考试形式。一批作文一次可以写十行,但是国语考试的老师一定要认真听每一段演讲,不要漏掉每一个读错的单词才能得分。

    从最简单的语音测试,到今天,语音识别系统可以在嘈杂的汽车、会议室、报告厅中听懂中国外语方言。这是另一个20年的工作。胡国平将这种技术演进的方法概括为“阶梯”,只做技术发展各个阶段能做的事,做先锋,不做先烈。如今,虚拟人具备了更多技能:

    如何让虚拟人用声音做出动作和表情?

    如何使用语音对话以外的方法,如视觉判断人的意图、对话对象等?

    让虚拟人表达情感需要一系列创新

    虚拟人是人工智能技术的集合:多模态感知、语音识别、对话理解、对话生成、语音合成、虚拟人图像生成等。这些技术中的每一项都可能是中国快速数字化进程的一部分。的喷雾剂。

    在过去的二十年里,人工智能的发展一步一个脚印。你想解决的每一个问题和你想开发的功能都是从一个较小的问题开始的。而成立于1999年的科大讯飞,也将数字人推入了数十家电视台等工作场景。他们现在想要解决的问题,早就从理解“脚本化”的语音测试变成了人机之间的几个基础问题,从语音业务开始,直到机器能听、能看、能懂。这个世界。

    从声音到一切

    世纪之交,OCR问题是许多科技公司试图突破的关键技术高峰。与科大讯飞同时成立的汉王公司是最早将实验室OCR技术应用到应用产品中的公司。在最早的日子里,OCR 被用来扫描和输入文件。从扫描标准印刷品到识别手写文件,OCR一一攻克难关;如今,OCR已经渗透到APP和产品中,拍照翻译、“翻译笔”、名片录入、手写输入法等等,背后都有OCR的功劳。

    或许是因为太有用了,2006年,汉王的OCR技术获得了国家科技进步二等奖。

    此时,科大讯飞人工智能研究院首席科学家魏思觉得,OCR在更多领域,尤其是教育领域,具有潜在的应用价值。教育和考试系统是密不可分的,而 OCR 显然是进一步允许机器批改试卷所必需的关键技术——允许机器识别答题纸。

    它必须被打破。但是机器是如何识别汉字的呢?长期以来,科大讯飞的科学家们尝试了一个又一个的解决方案。

    早期的科大讯飞 OCR 团队使用人工分析字体的关键特征来识别单个汉字。他们尝试用这个方法来优化科大讯飞输入法的手写输入准确度——这个输入法在2010年推出,主要最重要的是自然高效的语音识别输入,而手写也是一种自然语言,而且它也是值得多做一点工作。

    OCR团队在优化手写识别的同时,魏思和潘佳也在带领团队将新兴的深度学习方法应用到语音识别领域。2010年,微软的一篇论文宣布了深度神经网络(DNN)在语音识别中的高效率,科大讯飞的科学家成为了第一个在中文语音中使用DNN方法的先驱。

    “我们为什么不尝试语音识别技术?”

    2014年,科大讯飞在改进图像字符识别的OCR技术时,科大讯飞人工智能研究院的两组科学家在办公室里遇到了这样一个新想法。当时,魏斯领导的语音识别团队离 OCR 团队不远。当时,两组人发现语音识别和字符识别其实有很多相似之处。那一刻,语音识别团队已经对深度神经网络(DNN)进行了四年的琢磨,也利用这个工具快速提升了语音的识别率,并用在了输入法等实际业务中。

    “魏斯经常提出很多新的想法,他的风格是只要能解释清楚就一定要尝试,他会把他的东西分享给下面的大家,他可以带动整个AI研究医院的氛围,科大讯飞可以做一些典型的工作,这种氛围很重要。” 语音识别专家潘佳回忆,当时,魏思还在科大讯飞人工智能研究院主持了“大群会”——一直呆在理工科实验室的同学,一定对这个名词很熟悉,而且在科大讯飞,本次大会承载了各团队交流国际最新进展的关键场合,科大讯飞人工智能研究院三大主要技术线:语音、计算机视觉、认知智能、

    很快,科大讯飞人工智能研究院的科学家们利用同一个底层模型,实现了OCR识别准确率的突破,并将其应用到了多年前为OCR规划的应用场景:全学科试卷。该系统快速完成中考英语作文识别任务,并结合自然语言处理与评分老师一起完成作文评分。

    时至今日,科大讯飞OCR技术的底层依然是这个源自语音识别的深度神经网络框架。但在 OCR 之后,让机器理解人类语言还远远没有结束——接下来的工作就是让机器识别数学、物理和化学公式。

    从科大讯飞开始OCR研究,只能看笔画特征的文字识别,到今天的OCR识别手写公式,判断数学题的对错,然后拍摄并输入带有排版信息的结构化文档表格,已经十年了. 年。科技公司的科学家解决技术问题几年,甚至十几年,也只有我们今天习惯了,大家都可以使用的产品功能。

    这似乎是科大讯飞20年的缩影:他们很早就看到了技术的潜在价值,并一步步开发和实施。在易“烧钱”的人工智能行业,科大讯飞生存下来并持续进行技术研发和技术改造,成为一家布局全面、多项技术世界领先的人工智能公司。

    它的根源在于二十年前的一个简单需求:让计算机学会说话的语音合成技术。我们尝试将科大讯飞拓展技术边界的过程组织在一个时间线上,大致是这样的——

    我们最大的发现是,我们很难看到某个业务从天而降,所有的技术和业务都有迹可循,就像这个在视觉场景中使用语音识别技术的故事一样。

    智能机器的诞生

    2005年,科大讯飞开始研究语音识别;2015年,语音识别的一项关键技术应用“语音转写”正式上线,录音转写工具“讯飞听力”也在此时开始孵化。2018年,科大讯飞中英注音翻译系统首次达到CATTI全国翻译职业资格(水平)考试二级及格标准,这意味着该系统可以参与重大会议的翻译过程。

    为什么这个看似直观的功能需要十年才能完成?

    因为应用场景很多,拆开来看,其实远比想象的复杂。在科大讯飞1024开发者大会上,胡国平表示,会议的转录、实时翻译和同声传译实际上是典型的复杂系统。语音输入的识别只是其中的一部分。为了提高会议实时转录和翻译的效果,还需要让系统理解PPT,尤其是会议实时或提前学习中的术语。在同声传译工作中,将传统的句子翻译和语音合成改为低延迟、全流的合成方式,通过学习说话人的声纹来合成翻译后的语音。

    即使在最初的语音识别过程中,会议的转录系统也面临着许多技术挑战。潘佳告诉我们,在会议转录的场景下,系统不是面对一个正在对着机器说话的人——如果你使用的是语音输入法,你会刻意把字读清楚,不会有额外的 In会议现场,演讲者面对人,他的语言习惯会更自然,他可能会口吃,还会出现“嗯”、“啊”等无意义的过渡词,被转写系统面对。是的,这些实际问题已经成为AI研究院科学家们的技术难题。

    从语音识别,到让系统知道语言的意思,中间有一个关键技术:NLP。这也是下一个技术步骤“认知智能”的基础。NLP技术发挥重要作用的教育和消费业务,已经成为科大讯飞在消费层面最直观的业务:会议转录、教育硬件等。

    当系统能听懂人在说什么,知道语言的意思,有能力及早合成语音时,科大讯飞就有能力与语音交互——人类将如何与机器共存,如何与机器交流,让“理解语言”的主要命题始于“理解语言”。

    每一个实际的社会需求都指向一个特定的技术问题,如果解决了,人工智能真的可以为人类做点什么。当我们梳理科大讯飞的技术演进过程时,这种感觉愈演愈烈。我们已经看到了太多技术过硬的科技公司的衰落。科大讯飞技术树的根,语音合成,本身看起来并不长。但为什么科大讯飞能走到今天,并且在以“烧钱”着称的人工智能赛道上,早早上市就盈利了?答案就在这个“技术进化”中:需求就在那里,科学家需要找到一条通达的、循序渐进的技术路线,通过系统的创新,将单点、基础型的技术组装成最终的应用。

    今天科大讯飞人工智能研究院的三大方向:语音、计算机视觉和认知智能,构成了科大讯飞对外总结的“人工智能技术树”。

    认知智能是一项有趣的工作。科大讯飞人工智能研究院认知智能专家盛志超告诉我们,2014年他第一次来到科大讯飞时,整个认知智能方向只有十几个人。就是上面提到的中英文作文的更正。他们想给机器“注入灵魂”,学习教学专家的评分标准:有没有语法错误?有高级句型和修辞吗?

    论文评分之后,同样是2014年,科大讯飞开始让系统了解医学、法律等行业的知识。2017年,科大讯飞人工智能首次通过国家职业医师资格考试,考试成绩超过真实考生的96%。不过,测试只代表了这套AI的阶段性成果。它的真正目的是让人工智能系统学习专家的知识,帮助基层医生提供诊断。这正在推动“智慧医疗助手”业务的建立和发展,目前已在全国20多个省市建立,并在200多个区县和3万多家基层医疗机构开展全国,服务基层医生5万余人。二是帮助患者在挂号时预填症状,实现智能分诊挂号。

    它是将实际问题抽象为计算机科学问题的过程。在1024开发者大会上,科大讯飞高级副总裁胡国平总结了“系统创新”的三大要素:一是将重大系统命题转化为科学问题的能力;二是核心技术效果从单点突破灵魂机器的时代:当计算机超过人类智能时,跨过应用门槛;三是深度整合创新链中的各项关键技术,最终实现真正意义上的系统创新。

    在一定程度上,这正是科大讯飞赖以生存的创新机制——在中国信息化的动荡过程中,让计算机帮我们解决每一个问题,让科大讯飞从语音走向“科技创新”企业综合智能,已屹立20年。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 如果穿越回去你问人什么是“人工智能”,他们可能会给你一个的回答

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论