最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 吴恩达AI大牛吴恩达刚被检测出新冠阳性,你同意吗?

    风色编译整理量子比特 | 公众号QbitAI

    AI吴恩达不久前新冠检测呈阳性,不少网友纷纷向他表达了早日康复的愿望。

    今天,他的重点是他的 Landing AI 公司。

    这是一家致力于制造企业数字化转型的初创公司。其目标是帮助制造企业更快速、更轻松地构建和部署人工智能系统。

    对于传统企业来说,预训练模型都是基于公开数据,不实用。

    但毕竟是传统企业,哪里能收集到海量的具体数据来支持培训呢?

    那么 Landing AI 是如何克服这个困难的呢?

    近日,在接受 IEEE Spectrum 专访时,吴恩达讨论了人工智能领域未来十年的趋势,表示“是时候从大数据转向小数据和高质量数据了”。

    也许我们可以找到这个问题的答案。

    以下内容为采访原文编辑,略有删减。

    IEEE Spectrum:由于模型和数据集越来越大,深度学习在过去十年中取得了长足的进步。有些人认为这是一条不可持续的轨迹。你同意?

    吴:这确实是一个值得思考的问题。NLP 领域已经有了一个基础模型,并且还在继续扩展。计算机视觉领域也具有构建基础模型的潜力,即在视频领域,由于计算带宽(算力)和处理成本的限制,还有待开发。虽然用于扩展深度学习算法的引擎已经运行了大约 15 年,但它仍然拥有充足的动力。但是,它仅适用于某些问题,并且存在一系列需要小数据解决方案的场景。

    注意:基础模型是 Percy Liang 和 Wu 在斯坦福大学的一些朋友创造的一个术语,指的是在非常大的数据集上训练的大型模型,这些模型可以针对特定应用进行调整,例如 GPT-3。

    在过去的十年中,拥有大量用户群(有时达到数十亿)的面向消费者的企业已经获得了用于深度学习的非常大的数据集。这给了他们很大的经济价值,但我发现这条规则不适用于其他行业。

    IEEE Spectrum:有趣,你曾经在这种公司工作过。

    吴:是的,但十多年前我提出启动谷歌大脑项目,利用谷歌的计算基础设施构建大规模网络时,引起了争议。一个非常资深的人把我拉到一边,警告我这对我的职业生涯不利。我认为他的意思是该项目不能只专注于扩展,它应该专注于架构创新。

    记得当我和我的学生发表第一篇提倡使用 CUDA 进行深度学习的论文时,另一位 AI 资深人士坐下来跟我说,“CUDA 编程非常复杂。作为一种编程范式,如果是这样的话,工作量太大了。”

    IEEE Spectrum:我想他们一定是后来被说服了。

    吴:是的。

    当我现在和你谈论以数据为中心的 AI 运动时,我也想起了 15 年前我在谈论深度学习时所谈论的场景。今年,很多人跟我说“方向不对”,“中间好像没有什么新鲜事”。

    IEEE Spectrum:您如何定义以数据为中心的 AI,为什么您认为它是一种运动?

    吴:以数据为中心的人工智能是构建成功人工智能系统所需数据​​的系统指南。对于 AI 系统,您必须在代码中实现一些算法,然后在数据集上对其进行训练。过去十年的主要用例是当我们下载数据集同时专注于改进代码时。这种模式给深度学习网络带来了显着的改进,但它的架构基本上表达了一个已解决的问题。因此,对于许多实际应用来说,现在更有效的是修复神经网络结构并找到改进数据的方法。

    当我提出这一点时,一位学员说:“我们已经做了20年了。” 我想说的是,是时候将这种少数人的直觉变成系统问题了。

    IEEE Spectrum:您之前提到一些公司或机构只有少量数据可供使用。以数据为中心的人工智能如何帮助他们?

    吴:就像很多视觉模型是用百万张图片构建的一样,我也用3.5亿张图片构建了一个人脸识别系统。但是这个模型无法在只有 50 张图像的数据集上运行。但事实证明,如果你有 50 个非常好的数据,你也可以做出一些有价值的东西,比如缺陷检查系统。在许多根本不存在巨型数据集的行业中,我认为重点必须从大数据转向优质数据。50 个经过深思熟虑的示例足以向神经网络解释您希望它学习什么。

    IEEE Spectrum:用 50 张图像训练模型是否意味着在现有模型上对它进行微调?或者这是一个全新的模型,只是从这个小数据集中学习?

    吴:让我告诉你着陆人工智能是做什么的。在为厂商提供缺陷检测服务时,我们一般使用具有自己风格的 RetinaNet。它是一个预训练模型。话虽如此,预训练只是拼图的一小部分ai遇到未知的图像结构,更大的拼图是提供一种工具ai遇到未知的图像结构,允许制造商选择正确的图像集(用于微调)并以一致的方式标记图集。面对大数据集的应用,我们通常的反应是,如果数据有噪声,没关系,所有数据都照原样取,算法会平均(average over)。但是,如果我们可以开发工具来标记数据不一致的地方,为制造商提供一种非常有针对性的方法来提高数据质量,那将是获得高性能系统的更有效方法。

    比如你现在有 10000 张图片,其中 30 张属于一个类别,但是这 30 张的标签是不一致的。我们要做的一件事是构建工具来吸引您对这个特定数据子集的注意,使您能够快速重新标记它们,从而提高模型性能。

    IEEE Spectrum:生成这样的高质量数据集是否有助于消除数据偏差?

    吴:很有帮助。有偏差的数据是导致最终模型出现偏差的众多因素之一。在 NeurIPS 会议上,Mary Gray 的演讲谈到以数据为中心的 AI 是解决这个问题的一个(但不是全部)解决方案。

    以数据为中心的 AI 为我们带来的强大功能之一是设计数据子集。想象一下,您训练了一个机器学习模型,该模型对大多数数据集执行良好,但仅对子集有偏差。仅仅为了提高这个子集的性能而改变整个神经网络架构是相当困难的。

    但是,如果您可以为该子集设计正确的数据,则解决方案将更有针对性。

    IEEE Spectrum:数据工程究竟意味着什么?

    吴:在人工智能领域,数据清洗非常重要,但目前它依赖于非常机械的方法。当面对非常大的数据集时,此工具可以快速将您的注意力吸引到集中收集的嘈杂数据子集上。

    就像我曾经发现语音识别系统的性能很差,主要是由于背景中的汽车噪音。知道了这一点,我可以在这种噪音背景下收集更多数据,而不是对所有事情采取行动,从而节省金钱和时间。

    IEEE Spectrum:使用合成数据怎么样?这也是一个很好的解决方案吗?

    吴:合成数据也是以数据为中心的人工智能工具集中的一个重要工具。Anima Anandkumar 在 NeurIPS 研讨会上发表了关于合成数据的精彩演讲。我认为这只是将数据添加到模型的预处理步骤。我希望看到开发人员生成合成数据作为迭代机器学习模型闭环的一部分。

    IEEE Spectrum:您的意思是合成数据可以让您在更多不同的数据集上尝试模型吗?

    吴:不止于此。假设您想检测智能手机外壳上的缺陷,包括划痕、凹痕、材料变色等。如果您训练的模型在此检测任务上总体表现良好,但在识别凹痕方面表现不佳,那么您可以使用合成数据生成更多有针对性的数据来​​解决问题。

    IEEE Spectrum:您能告诉我们更多关于当一家公司发现 Landing AI 时您可以提供什么样的帮助,例如进行视觉检查?

    吴:我们会要求他们将数据上传到我们的平台,用以数据为中心的人工智能方法为他们提供建议,并帮助他们标记数据。

    Landing AI 的重点是让制造商自己做机器学习工作,我们的很多工作是确保软件快速且易于使用。在机器学习的迭代过程中,我们建议客户如何在平台上训练模型,如何以及何时改进数据标注以提高模型性能。

    IEEE Spectrum:如果产品或照明条件发生变化,这个模型能跟得上吗?

    吴:所以让制造业客户自己纠正数据、重新训练和更新模型是非常重要的。

    在消费互联网中,我们只需要训练几个机器学习模型就可以服务十亿用户。在制造业中,10,000 家制造商正在制造 10,000 种定制模型。挑战在于,在不雇佣 10,000 名机器学习专家的情况下如何做到这一点?

    这个问题在医疗保健等其他行业也存在。

    摆脱这种困境的唯一方法是开发允许客户设计自己的数据、表达领域专业知识并让他们构建自己的模型的工具。这也是 Landing AI 在计算机视觉领域所做的事情。

    IEEE Spectrum:有什么最终意见吗?

    吴:过去十年人工智能最大的转变是向深度学习的转变。我认为这十年中最大的转变可能是转向以数据为中心的人工智能。随着当今神经网络架构的成熟,我认为对于许多现实世界的应用程序来说,瓶颈将是我们有效获取使模型正常运行所需的数据的能力。

    以数据为中心的人工智能运动在整个社区中拥有巨大的能量和动力。我希望更多的研究人员和开发人员加入并致力于它。

    结束。

    原采访:

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 吴恩达AI大牛吴恩达刚被检测出新冠阳性,你同意吗?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论