最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • AI狂欢的世界:算是入行打听“算法”的套路

    来源 | 潇湘文 | 李野

    0. 简介

    AI本来就是一个专业领域,没什么特别的。作为一名码农,作者的工作正是在这个领域。

    在过去的一年多时间里,接连发生了很多事情,让笔者不得不抬起一直在敲代码的脑袋,看看这个人工智能狂欢的世界。

    【案例一】我实际上遇到了两个亲戚朋友,他们在一个月内就在一个相对传统的行业创业,询问AI技术在他们的行业中的应用,例如:聊天机器人是否可以代替人类客服。

    亲戚朋友都有聘请算法工程师的想法。其中一个已经真正开始寻找。

    找了一个不是985学院专业对口的医生,费了一番周折。我的朋友有点想录用他,但他要的是100万的年薪。

    创业公司虽然已经筹集了两轮融资,但还不敢把钱烧死,所以纷纷询问“算法”的用处。

    【案例2】笔者所在公司今年的校园招聘,像往常一样作为面试官参加,面试了几位来自不同985学院(明年毕业)的学生。顺便和几位今年刚入职的应届毕业生聊了聊。

    原来所有的受访者(至少我遇到的那些)都是人工智能或者机器学习的学生,而互相交流过的新同事都是在学校做机器学习或者深度学习算法的。

    而且,大家对离职后工作的期望是做算法。

    人工智能在两三年前就已经落入大数据趋势,人人都是“数据科学家”的套路。

    究竟做了什么才算是进入了AI行业呢?

    其实这个话题在笔者之前的几次聊天中都反复提到过,在此再说一遍:行业内直接应用AI技术的人员大致可以分为三个不同的角色:算法、工程、数据.

    现在在包括gitchat在内的各种媒体上都有大量文章教你如何进入AI,如何成为特定领域的工程师,告诉你需要掌握哪些技术栈才能在某个领域发展字段,等等……对于这个本文不再赘述。

    先不说怎么成为XXX,我们先来看看成为XXX之后要做什么,做这些事情需要什么样的能力,具备了这些能力,做这件事情之后又能做什么呢?方向发展。

    换句话说,在本文中,我们将从直观的角度来了解承担不同角色所需的素质、日常工作状态和职业发展路径。

    1. 做算法1.1 日常工作

    人人都想做算法,那么,到底算法在工业上是做什么的呢?

    对于真正的算法工程师(有些公司也被称为科学家)来说,最基本的日常工作其实是:阅读论文并实施——确认最新论文中的阐述是否真实可重复,进一步确认是否可以应用到公司的产品,然后将其应用到实践中以提高产品质量。

    1.2 所需能力

    因为每天的工作就是先看别人的论文。那么,作为一名算法工程师,你必须具备快速大量阅读英文论文的能力。

    有一个网站,所有对算法感兴趣的同学都必须知道: – 有大量近期多学科(包括计算机科学)的论文。

    现在,许多科学家、学者、研究人员和博士生在他们刚刚完成论文,还没有在正式的期刊会议上发表论文时,就在这里发表他们的论文,以便在最短的时间内传播他们的成果。

    在传统的正规渠道中,从论文完成到正式发表,短时延迟三四个月,长时时延一年半。这对于一些传统学科来说是勉强可以接受的。

    但计算机科学,尤其是人工智能、机器学习、深度学习,当今世界最热门的话题,大家都在争分夺秒抢占制高点,不能容忍耽误几个月。

    因此,arxiv.org 已成为当前人工智能学术文献的巅峰之作。

    如果你想做算法,平均来说,每周阅读一篇近期论文的频率。

    或许这就是为什么到目前为止,我所听到和看到的算法工程师都是博士。

    经过几年密集的学术研究训练,这些博士,即使他们的综合英语水平不是CET-4,也可以阅读硬骨头的英语论文!

    1.3 自测“算力”

    但当然不能说硕士、学士或其他有志之士做不了算法。人不是生来就知道的,所以他们学不来。

    但到底能不能学会,其实也不需要三年五年,花几万块钱在各种培训或者付费阅读上就知道了。

    有一个很简单的验证方法:找一篇论文(比如这篇:[Dynamic Routing Between Capsules]()),从头到尾读一遍。

    现在看不懂也没关系,至少先试着从头到尾读一遍,不漏一个字。如果你不认识任何单词,就查字典。

    如果你做不到,我们就立即和“算法”分手。既然注定要错过,又何必一味的纠缠呢?

    1.4 学术和实践能力

    如果,一个偶然的机会,你喜欢读论文,或者即使你不喜欢它,你也有足够的意志力和专注力来强迫自己强行读论文。那么恭喜你,你已经走到了算法山门的第一步。

    下一个层次是:阅读论文。

    既然要看论文,看最新论文,看书的目的是指导实践,那你就一定要懂。拿起一篇论文要达到*理解*的程度,至少需要以下三个能力:

    1.4.1 回顾性学习能力

    当我看一篇论文时,我不知道很多术语和术语,我不知道它们之间是如何相互关联的。该怎么办?阅读参考资料、上网搜索、查阅书籍……总之,利用一切资源和手段,了解不清楚的概念的含义和联系。

    这种能力是学术研究最基本的能力之一,一般来说,对于有学术背景的人来说,这不是问题。

    如果你现在没有,你可以主动去修炼,那么你可能首先需要学习学术研究方法论。

    1.4.2 数学能力

    如果你只是出于学习的目的阅读经典的老论文,那么只要知道文中图表的含义,就能理解公式推导的开头和结尾(成立的物理意义)公式开头,推导后最终形式的基本性质),即可。

    但是阅读最新的论文是不同的。因为它是新的,它一定不能被时间检验,所以没有人会提前为你验证它的正确性。

    在这种情况下,查看公式需要查看推导。否则,另一个是数学推导错误,导致结果过于喜人,但在实践中无法重现。会不会又费时又费力?

    如果你现在的数学能力还不够,当然可以学。但是,它不同于后面做工程过程中要讨论的碎片化学习。做算法,你需要系统地学习数学。

    微积分、线性代数、概率和统计,是不可避免的。如果在这方面有欠缺,我们先从计算机系的本科数学课说起。我个人推荐北京师范大学的教材。

    1.4.3 理论联系实际,学术话语与产品、业务相结合的能力

    一般来说,如果你是大型企业中真正的算法工程师/科学家,则不需要自己开发产品。但是做演示/原型是不可避免的。

    算法工程师不只是用别人写的工具填写几个参数然后运行。他们需要负责将实际业务问题抽象为数学模型,并能够将其他人的最新成果(敲黑板——那些论文!!!)应用于业务数据。

    更简单地说,即使你使用别人写的工具或框架来做算法,你也必须是 i) 第一批试用用户,或者 ii) 工具最新玩法的发明者。

    1.5 创新人才

    算法工程师,即使不发明新算法或提出新的算法优化方法,也必须尝试使用​​最新的算法或以新的方式使用现有算法。

    不用说,这是一个注定要创新的角色。所以,这个角色绝对不适合绝大多数人!

    2. 做工程2.1 日常工作

    与创新和尖端的算法相比,工程要平凡得多。

    这个角色比较有代表性的职位是:机器学习工程师(或者戏称为参数工程师)——他们使用别人开发的框架和工具,运行现有算法,训练业务数据,获得工作模型。

    可能有一些处理数据、选择特征、调整参数的手段,但一般都有证据可循,没必要自己发明一个XXXX。

    做工程也需要看论文,但和做算法不同的是,做工程论文的一般目的不是尝试最新的方法,而是用已知有效的方法解决实际问题。

    这导致工科学生经常阅读“旧”论文,或者学术内容相对较低(不是那么难)的论文。

    而阅读的时候,主要是为了直接找到一个问题的解决方案,所以可以跳过阅读。

    对于数学公式,能读懂头尾就够了。对论文的阅读频率和学术深度的要求远低于对算法的要求。

    TIP:很多头衔都是为“人工智能/机器学习/深度学习算法工程师”招聘岗位写的,但实际上招聘的是工程人员。不拘泥于夸夸其谈,把具体职责和工作内容看清楚。

    2.2 软件工程师分支

    毕竟,机器学习工程师是广义上的软件工程师(或云程序员)的一个分支。AI产品开发是广义的软件开发领域。

    毕竟,每个程序员都有一个领域。但是,不同的领域在不同的时期有不同的流行度和发展趋势。

    几年前,在编程世界中处于*底层*的程序员。编写协议栈、开发驱动程序和实现各种系统接口的程序员站在鄙视链的顶端。

    今日风水轮回,昨日黄花凋零,轮到AI封神。

    但归根结底,开发人工智能产品的程序员也是程序员。但是,只需要了解该领域的一定程度的理论知识即可。理解PCI协议和之前开发PCI协议栈一样,需要理解TCP/IP才能写网卡驱动。

    2.3 程序员的基本素质

    既然是程序员,首先一定不能失去程序员的基本素质:编码能力,以及基本的算法能力(不是上面说的算法,而是链、树的构造、删除、遍历、查找、排序等数据) , 和图)结构中提到的算法)是最低要求。

    其实在AI成为趋势的今天,只要能找到一家在AI方面比较前沿的企业,进去做一个普通的程序员。

    所以即使最初开发的产品不属于人工智能的范畴,未来通过将新的人工智能技术应用到老产品上,或者将其转移到公司内部做人工智能产品的团队,他们可能会获得进入这个行业的机会。 .

    即便是对具体知识的掌握,入行后也可以慢慢积累——对于大多数 AI 工程师来说,这可能是一条很自然的入行路径。

    但是这一切的前提是:这个人首先必须是一个合格的程序员!

    与其本末倒置,虽然我花时间学习了一些模型和算法,但我连最基本的编程面试题都做错了。

    2.4 做工程,“机器学习”有多深就够了

    当然,既然是有领域的程序员,在专业上达到一定的深度也是有必要的。

    虽然工程上一般需要使用现成的技术框架,但不代表直接把算法当成黑箱,就可以成为一名合格的“调参”工程师。

    用算法做黑盒的问题在于,当黑盒能解决问题的时候,好用,但是一旦不能解决问题或者要求质量,就会感到无所适从。

    作为程序员和工程师,要想用机器学习算法解决实际问题,就必须对算法有一定的掌握。此外,还需要具备相应的数据处理和模型验证知识。

    2.4.1算法

    仅从使用角度来说,掌握算法从浅到深大致可以分为以下几个步骤:

    [1] 简单使用:了解一个算法的基本原理、应用领域、功能和局限性。

    [2] 模型调优:了解所使用的算法和相应模型的数学公式。

    [3] 运行效率优化:掌握模型本身的数学推导过程和模型优化方法,了解各种优化方法的特点、资源占用和消耗。

    2.4.2 数据

    仅靠算法并不能解决问题。算法和数据相结合,得到有效的模型。

    对于数据,需要从两个角度去理解和掌握:i). 具有商业意义的信息,以及 ii)。

    [1] 特征选择:从业务角度区分输入数据中包含的特征,并认识到这些特征对结果的贡献。

    [2] 向量空间模型(VSM)构建:学习如何将人类日常使用的自然语言、图片和其他信息转换为算法可以操作的数据。

    [3] 数据清洗与处理:过滤直接业务数据,转化为模型可以处理的形式。

    2.4.3 模型验证

    算法+数据可以得到模型。但,

    为了回答这些问题,需要掌握衡量模型质量的方法。为此,您需要执行以下操作:

    3. 做数据

    这里的数据不是数据的清洗和处理——可以看工程岗位,部分工作内容是ETL和数据处理。这里做数据是指数据标注。

    3.1 标注数据的重要性

    机器学习中虽然有无监督学习,但在实际领域被证明有直接作用的基本都是有监督的模型。

    近年来,深度学习在很多应用中都取得了巨大的成功,而深度学习的成功,无论是图像、语音、NLP、自动翻译还是AlphaGo,都离不开海量的标注数据。

    无论是ML还是DL工程师(算法&工程),后者有什么,都印证了现阶段数据远比算法重要的事实。

    3.2 手动数据标注的必要性

    很多人错误地认为,AlphaGo Zero 100:0 战胜 AlphaGo 是无监督学习的胜利。

    事实上,之所以会出现这样的结果,正是因为 Zero 使用了围棋严格、完整、清晰的规则,自己创造了海量的标注数据——标注数据的数量远远超过了其前身 AlphaGo 的输入,并且可以随时创建。过多。

    围棋是一种人工定义的游戏,在 19×19 格的范围内按照完整且明确的规则运行,因此计算机程序可以根据规则自动生成带标签的数据。

    在现实的人类世界中,基本上没有完全按照规则做事,没有意外发生的情况。因此,真正对人类有用的模型仍然需要手动标记的训练数据。

    当然,目前在贴标过程中有多种技术辅助人工,从而减少工作量,降低人工贴标的比例。但到目前为止,还没有可以在应用领域实现完全自动化标签的技术。

    也就是说,在可预见的未来,人工标注数据仍然是AI落地的必要性和主流。

    3.3 人工智能的“勤奋”

    3.3.1 什么是注解

    举一个很简单的例子来说明什么是数据注解:

    在开发聊天机器人时,我们需要训练意图判断和实体识别模型,因此我们还需要对用户提问的意图和出现的实体进行标注。

    这是用户提问的原始数据:“00183号货到伊利的邮费是多少?”

    在这样的一句话中,很明显,问它的用户想知道某个商品到某个地方的邮费。邮资是商品的一个属性,我们将查询商品属性的所有意图定义为“商品查询”。

    因此,这样一个句子的意图是“商品查询”。它包含几个实体,即产品 ID、目的地和产品属性。

    这句话标出后,是这样的:

    [00183]

    具体格式无需混淆。核心点:标注就是根据业务需求,用定义好的标签对全部或部分原始数据进行标注。

    3.3.2 数据标注的日常工作

    简单来说:数据标注的日常工作就是对各类数据(文本、图片、视频、音频等)进行标注。

    【好消息】:数据标注几乎没有门槛。一般来说,任何专业,甚至低学历的大学毕业生都可以胜任。无需机器学习等专业知识即可开始使用。

    【坏消息】:这样的工作纯粹是“脏活”,一点都不酷,起薪很低。

    使用不恰当的类比:

    做算法就是杀龙、斗剑、飞仙;

    做工程就是打猎、奔马、狂饮、狂歌;

    每天做数据就是养猪,拌猪粮,清理猪粪,一脸泥土。

    因此,虽然这是任何人都可以做的工作,但恐怕很少有人愿意去做。

    3.3.3 数据标注难点

    就单个任务而言,数据标注是一项简单的工作。它的难点在于数据的整体一致性以及与业务的融合。

    [1] 数据一致性是指所有数据的标注原则相同。

    当有大量数据时,一致性很难保证,尤其是在需要精确的标准时。

    如果一个原始数据被多人同时标注,即使标注原则被反复宣扬,每个人都有自己的理解和侧重点,很难保证一致性。在另一个人看来,是“售后要求”。(即使将所有数据提供给一个人,在不同时间也可能会有不同的理解。)

    由于缺乏对数据标注的重视(这与对算法的过分强调不谋而合),许多公司将数据标注外包。

    对于数据标注的不一致,采用暴力解决方案:让多人(如3人)同时标注相同的数据,一旦出现不一致,采用简单多数法,结果得到团队一致认可大多数人(如:如果3个人中有两个选择“查询产品”,则选择“查询产品”作为最终标签)。

    这种方案在粗略的标准数据上也能起到一定的作用,但如果是准确的标准,往往很难让大多数人认同。

    如果三个人标记的结果完全不同,那么数据就会失去标记值。

    在现实中,由于质量太低,经常需要对相同的数据进行重复标注,既费时又费力。

    [2] 服务的收集是数据标注面临的另一个挑战。

    目前这不是很明显。因为:目前人工智能的落地点还比较有限,真正的商业化领域也只是语音和图像处理的少数应用;

    业主是拥有自己贴标团队的大公司,或聘请有长期合作关系的第三方贴标公司,贴标人员经验相对丰富;

    业务需求比较稳定ai路径文字怎么是倒的,需要的数据标注比较一般。普通人不难理解数据的含义和标注原则。

    一旦未来人工智能的落地点在各个领域全面铺开,很可能需要的是针对特定企业、特定业务不断变化的标注要求。

    标注看似简单,但标注原则一旦改变,就必须从头再来。前面的注解不仅没有积累,而且很麻烦。

    如何应对快速变化的业务需求,同步更新标注结果,将是人工智能真正服务大众时爆发的问题。但是,现阶段还没有得到足够的重视。

    3.3.4 数据标签的潜力

    目前,数据对模型的影响远远超过算法。一群年薪百万的算法工程师花费了数年的时间,直接影响模型质量的,甚至还不到可靠的标注团队一两个月的精心标注。对模型的影响,更不用说商业价值了。

    此刻ai路径文字怎么是倒的,人工智能正处于风口浪尖。大公司,巨额风投的独角兽创业公司,一一展现千元市场的精神,顺便砸向AI领域顶尖学者的不可思议的高薪。一批年轻的医生也吸引了世人的觊觎。

    这种状况能持续多久?一个商业企业能承受多少年不赚钱而烧钱?大潮过去后,行业回归理性,模式依旧是用来赚钱的。

    到那个阶段,大小企业会不会不计算成本和收益?他们会不会意识到将资源投入数据和算法的不同产出比率?

    企业要应用AI技术来创造利润,不仅需要算法工程师,数据标注是人工智能领域的“勤奋”,蓝领人工智能一定是刚需!

    所有标签工作的难点和隐患,即这项工作的潜力和未来职业发展的可能性。

    3.3.5 数据标注职业发展

    如前所述,数据标注的难点在于:

    同时,和所有低门槛的工作一样,从事数据标注工作也面临着如何在众多具有类似资质的人中脱颖而出的问题。

    还有一个问题是如何与越来越多的自动注释技术共存。

    因此,笔者个人推荐数据标注职业提升路径:经验+业务+管理。粗略的步骤是:

    未来可能会有“数据经理”这样的称谓:其职责是提供高质量的标注数据,在技术上连接工程领域的ETL和数据处理,连接产品与业务,带领团队提供公司产品或服务。收入提供直接贡献。

    4. 认清形势,脚踏实地

    最近可以明显感觉到,想要进入AI行业的人越来越多,而且增幅也越来越大。

    为什么这么多人想进入人工智能?你真的对计算机科学研究或扩展人类智能充满热情吗?说白了,大部分都是为了高薪。

    人们选择并努力获得更高的回报是非常合理的。关键是找到正确的道路。

    虽然寻求进入这个行业的人很多,但真正了解市场当前需求,了解不同层次人才定位,并根据自己的实际情况找到可行的出路的人太少了。

    人人都想“做算法”,但没想到:大公司的研究所里有一批高端的科学家,有的是读了十几二十年论文的资深研究员,一直走在人工智能的前沿。

    如果你想和他们一起做算法,你必须有可以和他们并列的成就:要么你有足够的学术成就,要么你可以解决拥有大量用户的产品的实际业务问题——你是哪一个?占?

    仅仅学习课程和做一些具有实践或实践性质的小项目是不足以做算法的。

    谁不是在自己的想象世界中屠龙的剑客?但现实中有多少人能杀龙?还剩下多少龙可供人屠戮?养猪虽然没有那么高,但吃猪肉是真的。

    太高的抱负只会浪费时间,脚踏实地才能成就理想——这也是作者写这篇文章的初衷。

    5.小公司的AI之路

    开头有Case 1。关于作者通过个人观察和思考,对人工智能在小企业中的应用提出的建议,我再多说几句。

    小公司没有那么多钱可烧,也买不起大公司那样的研究机构和科学家。所以,真的不建议小公司以技术储备为目的聘请做算法的人。

    试想:如果真的花百万年薪聘请博士生,半年之后,TA一无所获,或者即使有几个酷炫的模特,既不能增加流量,也不能吸引用户付费。这对公司的收入没有帮助。到时候,作为雇主,如何判断AI技术的发展还不够成熟,无法落实到公司业务中,还是这个人是吃素的?

    当然,并不是说小公司不能聘请算法工程师,而是说这种高成本的努力应该有针对性,公司原成员有能力判断交付物的质量。

    作为雇主,您必须知道在招聘人员时要做什么,可以使用哪些东西来提高 AI 技术的质量或效率,以及可以使用哪些指标来衡量这种改进。换句话说,就是:小公司在招聘之前用AI来设定KPI。

    笔者个人观点:大部分小企业真的不需要算法工程师,完全可以通过:

    业务数据 + ML/DL 工具 => 工作模型

    达到应用AI技术的目的。

    所以小企业真正需要的是:

    -结尾-

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » AI狂欢的世界:算是入行打听“算法”的套路

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论