最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 联邦学习的诞生:从“自给自足”的ToC模式到企业之间互联互通

    从“自给自足”的To C模型,到企业间互联互通的To B模型,再到金融、医疗、安防等场景的应用流程。

    联邦学习无疑是最受工业界和学术界关注的人工智能研究方向之一。

    近两年,在杨强教授等世界级专家的共同推动下,国内外大部分科技巨头已经开始组建联邦学习的研究和应用团队。

    基于此,雷锋网的《AI金融评论》和《AI科技评论》联合五位联邦学习顶级专家推出了《金融联邦学习公开课》。其中,在昨天的第一堂公开课上,微众银行首席人工智能官杨强教授就联邦学习的前沿和应用价值进行了分享。(课程全文及视频回顾将在公众号AI财经评论发布)

    今天,我们来完整回顾一下联邦学习诞生以来的三年,从“自给自足”的To C模型,到企业间互联互通的To B模型,再到医疗等全场景应用的过程护理、安全和财务。

    联邦学习的诞生:一个有趣的 C 愿景

    联邦学习的概念最早是在 2017 年的一篇 Google AI 博客文章中提出的。

    这篇文章的作者之一是 Blaise Aguëray Arcas,他于 2014 年加入谷歌,之前是微软的杰出工程师。加入谷歌后,Blaise 领导谷歌的设备端机器智能(Machine Intelligence)项目,负责基础研究和新产品开发。

    加入谷歌后不久,他开始研究联邦学习。直到 2017 年,他们取得了一定的成绩,才在博文中公布。

    布莱斯等人。(可能在某种程度上代表谷歌)更关心设备上的联邦学习——这是首次提出联邦学习概念的地方。

    由于神经网络仍然受限于学习效率,需要大量数据进行训练,所以一些大公司,如谷歌、微软、亚马逊等,在开始训练时需要收集大量数据。提供人工智能服务来训练大型神经网络。这是整个社区一直在做的事情。

    对于设备端的智能应用(如手机),通常的模式是将用户在设备上产生的数据上传到服务器,然后基于服务器端训练部署在服务器上的神经网络模型收集到的大量数据。得到一个模型,服务提供者根据这个模型为用户提供服务。随着用户设备上的数据不断更新并上传到服务器,服务器会根据更新后的数据更新模型。显然这是一种集中的模型训练方法。

    但是,这种方法存在几个问题:

    1)用户的数据隐私无法得到保证,用户在使用设备过程中产生的所有数据都将由服务提供商收集;

    2)网络延迟带来的延迟是很难克服的,这在需要实时性的服务(比如输入法)中尤为明显。

    布莱斯等人。想知道是否可以搭建一个大规模的分布式神经网络模型训练框架,让用户在没有本地数据的情况下也能获得同样的服务体验(在自己的设备上训练)。

    解决方案是:上传权重,而不是数据。

    我们知道神经网络模型是由不同层的神经元之间的连接组成的,层之间的连接是通过权重来实现的,这决定了神经网络可以做什么:一些权重用来区分猫和狗的;另一组可以区分桌子和椅子。从视觉识别到音频处理的一切都是由权重决定的。神经网络模型的训练本质上就是训练这些权重。

    那么,Blaise 提出的设备端联邦学习不再是让用户向服务器发送数据,然后在服务器上进行模型训练,而是让用户在本地训练,加密并上传训练模型(权重) ,服务器会整合数千个用户模型,然后反馈给用户模型改进计划。

    这里可能值得强调的是,这个设备上的模型是经过压缩的,而不是像服务器中那样的大型神经网络模型。因此,模型训练的能耗非常小,几乎检测不到。

    此外,Blaise 给出了一个非常形象的比喻,那就是人们在睡觉时会通过做梦来更新大脑认知系统;同一个设备终端系统也可以在空闲时用于模型训练和更新。所以总的来说,这不会对用户体验产生任何影响。

    总结一下设备上联邦学习的过程:

    在设备端下载当前版本的模型;通过学习本地数据改进模型;将模型的改进总结为一个比较小的更新;更新被加密并发送到云端;的改进。

    整个过程有三个关键步骤:

    根据用户使用情况,每部手机在本地对机型进行个性化改进;形成整体模型修改方案;适用于共享模型。该过程不断循环。

    它的优点很明显:

    一是数据不能上传到云端,服务商看不到用户数据,可以提高用户数据隐私。因此,您不必在隐私和功能之间进行权衡,您可以两者兼得。在数据隐私变得越来越重要的时候,这一点尤其重要。

    其次,延迟减少。如果用户数据全部上传到云端,服务本身从云端反馈,在网速慢的环境下,网络延迟会大大降低用户体验。联邦学习支持的服务则不是这样,因为服务本身来自本地。

    同时,联邦学习的出现也将用户从人工智能的旁观者转变为人工智能发展的参与者。

    To B人工智能的困境:

    隐私保护、小数据、数据孤岛

    事实上,谷歌的联邦学习并没有解决企业之间的数据孤岛问题。

    Google的解决方案可以理解为To C,应用于用户的手机,是同一家公司根据内部对To C服务的需求,为解决数据隐私问题而产生的一套解决方案。

    杨强教授领导的联邦学习生态,更多的是一个To B模型,用来解决企业之间的数据孤岛问题,是一个类似于企业联盟的更开放的生态。

    总的来说,谷歌的联邦学习解决方案是横向的,它使用相同的数据特​​征,因此只需要构建相同的模型。

    新的解决方案是垂直联邦学习,不同公司之间的数据特征往往不同,所以即使用户是同一个场景,整个技术方案和实现框架也不同。

    杨强教授曾在雷锋网主办的CCF-GAIR 2019“AI金融专场”会议报告中指出,在利益驱动下,过去企业不愿与其他企业交换数据。除了少数拥有海量用户和产品服务优势的“巨无霸”企业外,大多数企业很难以合理合法的方式弥合人工智能的数据鸿沟,或者需要付出巨额资金。解决这个问题的成本。

    此外,监管部门采取了相当严格的隐私保护措施。

    去年5月,欧洲率先提出GDPR,即数据隐私保护法,对人工智能机器的使用、数据的使用、数据权利的确认等都提出了非常严格的要求,以至于谷歌多次被罚款,每次金额都是几千万。围绕欧元。

    因为 GDPR 的其中一项规定是,数据使用不能偏离用户签署的协议。或许用户的大数据分析可以用来提升产品体验,但如果公司用这些数据来训练对话系统ai遇到未知的图像结构,那就违反了约定。如果公司要将这些数据用于其他用途,甚至与他人交换这些数据,前提必须是征得用户的同意。

    还有一些严格的要求,包括被遗忘权,也就是说,如果用户不希望他的数据有一天被用在你的模型中,他有权告诉公司,公司负责从模型中删除用户的数据。拿出来。这一要求不仅在欧洲,而且在美国加利福尼亚州也实施了非常严格的类似数据保护法。

    中国在数据隐私和保护方面也进行了非常细致的研究。从2009年到2019年,一连串的动作,越来越严格。经过与公众的长期讨论和互动,可能会在不久的将来颁布一系列正式的法律。

    其次,我们的大部分数据都是小数据:没有好的模型就无法实现好的自动化,而好的模型往往需要好的大数据,但高质量、有标签的数据往往是小数据。

    并且数据在变化,每一阶段的数据与前一阶段的数据有不同的分布,也许特征也会不同。对这些数据进行实时标注,形成良好的训练数据,需要大量的人力。

    目前,大多数应用领域都存在数据量少、质量差的问题。在一些高度专业化的子领域(如医学诊断)中,获得足以支持人工智能技术实现的标记数据更加困难。

    三是“对抗性学习”的挑战。也就是说,对于人工智能应用,比如人脸识别,可以对人脸进行伪造和合成。如何应对“对抗性学习”这一挑战,是金融场景下人工智能安全领域的一大课题。

    不仅在金融场景中,在法律场景中也是如此,在医疗场景中更是如此。每家医院的数据集都是有限的。如果这些数据无法连接起来,每个数据集只能是一个简单的模型,无法实现人类医生所需的高质量疾病识别。

    在这样的困境中,很多人认为人工智能的冬天可能会再次来临——但在联邦学习研究人员的眼中,这是一次技术飞跃的好机会。

    联邦学习:水平、垂直、迁移

    杨强这样描述联邦学习的本质:

    我们每个人的大脑中都有数据。当两个人一起做作业或写一本书时,我们并没有将两个脑袋物理地结合在一起,而是通过语言进行交流。因此,当我们写一本书时,一个人写了一部分,通过语言交流,最终写出合作的文章或写作。

    我们交流参数。在传递参数的过程中,有什么办法可以保护我们大脑中的隐私吗?有一种方法。这种方式是让不同的组织相互传递加密参数,建立共享模型,数据不能存储在本地。

    从简单的定义来看,联邦学习就是用本地数据在本地建立模型,然后对模型的关键参数进行加密。这个数据加密传输到云端是无法解密的,因为他得到的是一个加密的数据包。用算法聚合上千万个包,更新现有模型,然后下载更新后的模型。重要的是,服务器云在整个过程中并不知道每个包的内容。

    以前很难做到这一点,但同态加密的出现大大提高了计算效率,即加密算法可以跨加密层进行运算。不过需要注意的是,这只是2C的一个例子,一个面向大用户群的云的例子。

    它可以将多项式的加密分解为每次加密的多项式,A+B的加密,A的加密加上B的加密,这是一个非常大的贡献。因为这让我们可以拿一个算法,把外面的所有算法都加密,加密层可以渗透到里面的每一个单元。能够做到这一点可以改变现有的机器学习教科书,将任何算法变成加密算法。

    对于横向、纵向和迁移联邦学习,杨强给出了如下解释:

    横向联邦学习就是每一行都可以看作是一个用户的数据。按照用户的说法,可以看成是一、二、三部手机,这叫横向学习。另一个原因是它们的垂直维度都是特征,比如手机型号、手机使用时间、电池、人的位置,这些都是特征。它们的特征相同,样本不同。这就是横向联邦学习。

    主要方法是先获取信用等级,然后以加密状态聚合。这个聚合不是简单的加法,而是很复杂的加法,然后是分布式的征信模型。

    每个人的特点都不一样。一个机构是红色的,另一个是蓝色的。你可以想象两家医院。一名患者在红色医院进行了一些检查,在蓝色医院进行了一些其他检查。当我们知道两家医院有相同的情况时,有没有办法联合建模一组不愿意直接交换数据的患者呢?

    他们中间有一堵部门墙。我们可以在每一侧建立一个深度学习模型。建模的关键步骤是梯度下降。我们需要知道梯度下降的几个参数。上一轮的参数和Loss(梯度)是匹配的。模型的权重参数。

    在这个过程中,我们需要获取所有模型的参数级别。这时候,我们需要交换。在交换过程中,我们可以使用同态加密算法或安全多方计算。有一系列算法。再次更新、交换参数,直到系统覆盖。

    它们在功能上相同或不同,但它们的一些用户有交集。当用户和特征不相交时,我们退后一步思考,我们可以缩小或增加他们所在空间的维度,将他们带到另一个空间。

    在另一个空间中,可以发现它们的子空间交互,这些子空间的交互可以用于迁移学习。尽管它们没有直接的特征和用户重叠,但我们仍然可以找到迁移学习的共同点。

    总的来说,这种联邦学习的思想不仅适用于设备用户数据的隐私保护和模型更新。

    从抽象的角度来看,设备用户被视为数据所有者,可以是手机持有者、公司、医院、银行等;服务器或云被视为模型共享的综合平台。

    作为一种新的学习范式,联邦学习具有以下特点:

    这样一项直击人工智能发展痛点的新技术,也开始进入各大应用场景。

    联邦学习和医疗保健 AI

    作为医疗AI成长不可或缺的“食粮”,数据一直是医疗AI落地的“绊脚石”。

    医疗健康数据领域长期存在“信息孤岛”问题。不同地区甚至不同医院的医疗数据之间没有互联互通,没有统一的标准。同时,数据安全也存在​​巨大挑战。

    就在昨天,腾讯天眼实验室公开宣布,其联合微众银行开发的医学联邦学习在卒中预测在相关数据集中的应用准确率高达80%。

    联邦学习可以绕过医疗机构之间的信息壁垒。不是合并它们各自的数据,而是通过协议在它们之间传递加密信息。加密过程有一定的隐私保护机制,保证加密后的信息不会发生数据泄露。每个医疗机构都使用这些加密信息来更新模型参数,从而实现在不暴露原始数据的情况下使用所有患者数据的训练过程。

    例如,假设医院 A 和 B 想要联合训练一个中风疾病预测模型。两家医院各有科研案例数据。此外,医院 B 也有模型需要预测的标签数据,例如中风发病率标签。出于数据隐私保护和安全原因,医院 A 和 B 不能直接交换数据。联邦学习系统可以在A医院和B医院不公开各自数据,不暴露非重叠患者的前提下,利用基于加密的患者样本对齐技术,确认双方的共同患者,从而结合对这些用户的特征进行建模,确定共同用户群后,就可以利用这些数据训练疾病预测模型。

    就这样,联邦学习技术实现了保护不同医院数据隐私的疾病预测模型,该技术也落地到了疾病预测领域。天眼实验室与微众银行成功构建“中风疾病风险预测模型”。

    通过使用前5名病历中的真实医院就诊数据,联邦学习模型和集中训练模型的性能相差无几,在中风预测模型中准确率达到80%,仅为1%低于集中训练模型的准确率。

    同时,联邦学习技术显着提升了不同医院独立模型的效果。特别是对于两家中风确诊病例较少的医院,联邦学习分别将其准确率提高了 10% 和 20% 以上。

    除了疾病预测模型,双方还将围绕联邦学习在医疗大数据领域的应用展开更多维度的合作,包括医保成本控制、合理诊断、精准医疗等领域。例如,联邦学习可以帮助保护电子健康卡。用户隐私建模等,促进医疗健康产业发展,提升医疗服务质量。

    在2019医学影像分析顶级会议MICCAI上,联邦学习在医学影像中的应用正式进入研究人员的视野。

    英伟达与伦敦国王学院和法国初创公司 Owkin 合作,在新成立的伦敦医学影像和人工智能中心应用联合学习技术。

    由于医疗数据的隐私法规,在集中式数据湖中收集和共享患者数据通常是不可行的。这给训练机器学习算法带来了挑战,例如通常需要大量不同训练示例的深度卷积网络。

    联邦学习通过将代码提供给患者数据所有者并仅在他们之间共享来自中间模型训练的信息来规避这一困难。尽管适当地聚合这些模型可以产生更高准确度的模型,但共享模型可能会间接泄露本地训练数据。

    本技术论文介绍了一种用于脑肿瘤分割的联邦学习系统,并探讨了在联邦学习系统中应用差分隐私技术来保护患者数据的可行性。

    该试验基于取自 BraTS 2018 数据集的脑肿瘤分割数据进行,该数据集包含 285 名脑肿瘤患者的 MRI 扫描。

    研究人员说:“联合学习可以在不共享患者数据的情况下实现协作和分散的神经网络训练。” “每个节点负责训练自己的本地模型,并定期提交给参数服务器。服务器不断积累和聚合个人贡献,然后创建一个与所有节点共享的全局模型。”

    研究人员进一步解释说,虽然联邦学习可以保证极高的隐私安全性ai遇到未知的图像结构,但通过模型反转,仍然可以设法重现数据。为了帮助提高联邦学习的安全性,研究人员试验了使用 ε-差分隐私框架的可行性。该框架是一种正式定义隐私损失的方法,该方法通过其强大的隐私保证来保护患者和机构数据。

    英伟达团队解释说,联邦学习有望有效聚合机构从私有数据中本地学习的知识,从而进一步提高深度模型的准确性、鲁棒性和泛化性。

    NVIDIA 和伦敦国王学院的研究人员在 MICCAI 上展示了联邦学习技术的更多实施细节:

    深度学习神经网络已在各种医学应用中显示出可喜的结果,但高度依赖于训练数据的数量和多样性。在医学成像中,这带来了一个特别的困难:例如,由于患者数量或病理类型的原因,所需的训练数据可能无法在单个机构中获得。同时,由于医疗数据隐私法规,在集中式数据湖中收集和共享患者数据通常是不可行的。

    联邦学习允许在不共享患者数据的情况下对 DNN 进行协作和分布式训练。每个节点训练自己的本地模型并定期提交给参数服务器。服务器收集并聚合各个节点模型以生成全局模型,然后与所有节点共享。

    需要注意的是,训练数据对每个节点都是私有的,在学习过程中不会共享。仅共享模型的可训练权重或更新,从而保持患者数据的私密性。因此,联邦学习简洁地解决了许多数据安全挑战,将数据放在需要的地方,并支持多机构协作。

    论文还公开了客户端模型训练过程、服务端模型聚合过程、客户端部署的隐私保护模块,以及联邦学习实验项目的配置和实验结果。研究人员表示,未来他们将探索用于医学图像分析任务的差分私有 SGD 算法。

    联邦学习和安全

    安全是目前计算机视觉发展最快的领域。

    宇视科技CEO张鹏国曾在接受雷锋网专访时提到,“目前的AI安全落地能力与用户需求存在较大差距,前者仍需面对数据隐私保护和安全管控,低成本、流程再造和组织变革。等待挑战。”

    具体来说,核心痛点是数据不够多样化,异常封闭。

    中国拥有庞大的人口、庞大的用户和图像采集点。相关公司获得数据后,对其进行过滤、过滤、叠加、组合,分阶段提升自身算法的效果。

    但这样的改进是个人的,而且是微乎其微的。

    各个安防厂商搭建的AI系统,一个个类似于“烟囱”,“烟囱式”架构也是垂直架构。

    每个 IT 系统都有自己的存储和设备,以及独立的管理工具和数据库。不同的系统不能共享资源、传递和访问,形成资源孤岛和信息孤岛。

    因为不同的企业有不同的数据库模型设计和目标,它们不能直接交换和共享模型。

    即使可以整合相关公司之间的数据库,也一定不能因为隐私、安全等问题而做。

    存在数据缺失、数据难以共享的场景。这是包括AI安全在内的很多行业的通病,也是阻碍AI普惠的最大痛点。

    一方面,AI在安防行业的探索才刚刚开始;另一方面,做好人工智能所需的数据营养有限且质量较差,不同数据源之间存在难以打破的障碍。

    除了少数拥有大量用户和产品服务优势的巨头公司外,大多数中小型AI安全公司难以以合理合法的方式跨越人工智能落地的数据鸿沟,或者需要付费巨大的成本。来解决这个问题。

    多位学术和行业领袖指出:从目前的研究进展来看,“联邦学习”技术可能是解决上述问题的最佳选择。

    比如厂商A有校园数据,厂商B有工厂数据,厂商C有社区数据,这三个厂商都使用了联邦学习技术。

    从业务角度来看,A、B、C 三个厂商直接获得了两个能力:1、优化自身业务最快;2、拓展新业务最快。

    优化自身业务绩效最快的方法是平台每天都会有几家类似A厂商的公司向平台输入加密数据模型,而这些数据模型中包含了A厂商非常缺乏的其他数据信息,而A厂商可以以此为基础。这些数据用于更新自己的算法模型。

    拓展新业务最快的方式是每个厂商A、B、C都有自己构建的模型,通过聚合得到更大的数据模型,在没有数据流通的情况下获得数据流通的最佳效果。通过资源互补,我们可以在最短的时间内安全地获得对方的能力,拓展新的业务。

    从隐私保护的角度来看,通常智能摄像头生成的数据会上传到后台服务器,然后根据采集到的大量数据训练部署在服务器上的神经网络模型,得到模型。用户提供服务。

    这是一种中心化的模型训练方式,难以保证数据隐私安全。

    在联邦学习中,数据不再发送到后端,而是在每个企业自己的服务器上训练,训练模型加密上传。后端将整合数千个用户模型,然后反馈给用户以制定改进计划。

    一个典型的应用案例是微众银行和极光联合推出的中国首个视觉联邦学习系统。

    以摄像机中的火焰识别为例,AI工程师可能已经努力训练了一个用于火焰检测的识别模型,他们想在监控摄像机中使用该模型来识别是否存在燃烧现象,从而分析火灾的可能性. ,实现火灾预警。

    独创的AI算法,可以更准确地识别大面积燃烧、明火等常见场景。然而,当遇到打火机点燃的火焰时,镜头有些“茫然”。

    如果想让模型增强识别能力,传统的AI训练需要应用方提供一些数据样本,这就带来了算法精度低、网络带宽导致的数据隐私等问题。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 联邦学习的诞生:从“自给自足”的ToC模式到企业之间互联互通

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论