最新公告
  • 欢迎您光临欧资源网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 沈艳:数字金融基础设施中的新风险隐患的主要原因

    正文 | 北京大学国家发展研究院教授、北京大学数字金融研究中心副主任沉艳

    导言:近年来,数字金融市场的风险事件表明,与大数据相关的金融基础设施不足,这是新金融业态存在新风险的主要原因之一。缺乏对模型算法的讨论导致了数字金融发展过程中的一些误解,这可能导致治理偏差。本文旨在从模型算法治理的角度探讨数字金融发展中需要解决的大数据治理挑战,并提出数据治理的相关政策建议。

    随着互联网、大数据、云计算、区块链、人工智能等技术在金融行业的广泛应用,我国数字金融市场正在蓬勃发展。根据中国银保监会和中国人民银行发布的《2019年中国普惠金融发展报告》,2019年使用电子支付的成年人比例达到82.39%。在新冠肺炎疫情影响下,我国互联网银行向小微企业发放的贷款帮助小微企业及时摆脱困境,在灾情中发挥了经济稳定器作用。我国数字金融的一些商业模式也走在了世界前列。据国际货币基金组织(IMF)测算,我国数字金融公司估值已超过全球70%。2016年,中国个人移动支付总价值达到7900亿美元,是美国的11倍。; 中国最大的移动支付提供商的处理能力大约是美国同行的三倍。总体而言,我国对数字金融助力普惠金融、促进经济高质量增长寄予厚望。该公司最大的移动支付提供商的处理能力大约是其美国同行的三倍。总体而言,我国对数字金融助力普惠金融、促进经济高质量增长寄予厚望。该公司最大的移动支付提供商的处理能力大约是其美国同行的三倍。总体而言,我国对数字金融助力普惠金融、促进经济高质量增长寄予厚望。

    但是,为了推动数字金融市场进一步健康发展,金融基础设施的短板也不容忽视。近年来,数字金融市场的风险事件表明,与大数据相关的金融基础设施缺乏是新金融业务出现新风险的主要原因之一。例如,我国个人对个人的网络借贷在过去十年中经历了一个萌芽、繁荣、繁荣和衰落的过程。细细审视这个过程,虽然满足个人强烈的金融需求,帮助中小企业解决“贷贵难贷”的初衷是好的,

    在金融基础设施中,与数据要素密切相关的是监管基础设施中的信息基础设施(涉及信息记录、数据分析和计算能力三个方面)和数据隐私监管。金融大数据治理主要有四个问题:一是如何构建金融大数据要素市场;第二,如何管理数据隐私和信息安全;第三,如何识别和处理数据垄断;第四,如何做好模型、算法等的管理。对于前三个问题,已经进行了相关的研究和讨论。政府和业界也讨论了打破数据垄断,但较少讨论数字金融市场的算法治理。

    缺乏对模型算法的讨论,导致了数字金融发展中的一些误区。例如,有观点认为金融大数据优于传统数据;基于金融大数据的分析更加科学公正;基于机器学习模型设计的产品优于传统的决策系统,因为没有人工干预;“零人工干预”被吹捧为该业务的主要优势。但上述观点是否属实,不仅取决于是否对大数据的作用进行了充分和恰当的评估,还取决于对人在金融决策中的作用的理解。由于当前的机器学习算法强调相关性而非因果关系分析,基于挖掘金融的内部发展规律,高估大数据分析模型算法的优势,忽视人在决策中的作用,会带来新的隐性金融风险。|

    本文旨在从模型算法治理的角度探讨数字金融发展中需要解决的大数据治理挑战。分析金融领域“大数据狂妄”的潜在危害,探讨忽视大数据算法模型等数据治理可能出现偏差的原因,并提出相关政策建议。

    “大数据狂妄”的潜在危害

    David Lazer等学者在2014年提出的“Big Data Hubris”旨在高估大数据分析的作用,而忽略了潜在的问题。David Lazer 等学者在《科学》杂志的一篇文章中提出了上述观点,讨论了谷歌流感趋势预测出现显着偏差的原因。2008 年 11 月,谷歌启动了谷歌流感趋势 (GFT) 项目,目标是预测美国疾病控制和预防中心报告的流感发病率。2009 年,GFT 团队在 Nature 上发表文章称,仅通过分析数十亿次搜索中的 45 个流感相关关键词,GFT 就可以比美国疾病控制和预防中心提前两周预测 2007-2008 季节的流感发病率. 然而,研究发现,2009 年 GFT 未能预测非季节性甲型 H1N1 流感;估计度数为1.5 倍至2 倍以上。

    他们认为,这些估计偏差反映了“大数据狂妄”的概念,即大科技公司拥有的“海量数据”是“全数据”,利用这些数据进行分析的比形成的传统数据还要多。在科学抽样的基础上。优越,更可靠,并使我们更接近客观真理。但他们对 GFT 计划的评估表明,情况并非如此。

    在数字金融领域,如果没有合适的模型和算法治理,基于金融大数据分析的产品和商业模式,可能会出现“知真知故”、“算法歧视”等问题。甚至算法损坏。.

    忽略算法模型治理如何产生偏见

    基于金融大数据的预测模型的具体执行步骤可以分为三个过程:学习过程、测试过程和应用过程。以预测贷款人是否会逾期的机器学习任务为例,它首先需要获取历史贷款数据,包括逾期和未逾期的人。然后将这些数据分为两部分:训练集和测试集。第三步,用训练数据训练模型[56] 刘美俊 基于改进学习算法的模糊神经网络控制系统,得到对应的参数;然后使用测试数据来测试预测能力的水平,然后调整参数以获得最佳模型。最后,在实际场景中使用预测能力最强的模型。

    从以上步骤可以看出,金融大数据模型在实际应用中的优势需要满足以下三个条件:一是实际应用数据和历史数据没有发生重大的结构变化;第二,训练数据具有足够的代表性;第三,模型具有可解释性,应用者可以及时评估模型的适用性。如果不满足这三个条件,那么基于金融大数据的模型可能会带来额外的风险。

    历史数据和未来数据并不相似。金融大数据至少有两个不同于传统数据的特点:一是结构变化更难检验,二是金融大数据的生成机制更加复杂多变。这很容易导致用于训练和测试的历史数据与用于预测的未来数据不同。

    金融大数据具有不易测试的结构变化。由于我国数字经济和数字金融领域使用大数据的时间较短,一个跨越较长经济周期的大体量、细粒度的大数据体系仍在建设中。大数据分析所依据的机器学习或深度学习模型假设训练数据的生成机制与真实数据的生成机制相似,即没有重大的结构变化。与传统数据不同,大数据难以在不同研究机构之间共享,很多算法模型就像“黑匣子”,并且很难使用经典模型来测试数据结构的转换,以确定数据是否发生了重大的结构变化。在这种情况下,当经济金融发生重大结构性变化,但基于算法的模型无法快速检测到变化而继续使用过去运行良好的模型时,就会出现预测不准确的现象。

    金融大数据的生成机制受生成平台运营活动的影响。与传统的数据生成机制不同,大数据不再是由特定的政府部门或机构收集,而是经济社会实体运行的副产品。因此,大数据的产生受到平台自身运行的影响。例如,在金融大数据分析中,许多模型将个人社交媒体信息添加为风险控制的附加维度。对此类数据的分析往往基于一个假设,即社交媒体上的用户数量、他们的活动等。它客观地反映了人们对社交媒体的使用情况。但实际收集的用户数据是用户综合作用的结果

    又如某旅游信息平台记录和保存客户信息的初衷只是公司业务发展的需要,并未对客户采取分级定价;团体定价。客户发现后选择离开平台,导致客户群整体质量下降。科技公司与金融机构合作时[56] 刘美俊 基于改进学习算法的模糊神经网络控制系统,这个客户群体的质量下降并不是经济金融状况恶化造成的,而是合作公司自身利益造成的。如果无法确定这种变化的原因,金融机构将做出相应的回应。贷款决策的偏见。

    另一个影响金融大数据生成机制的因素是算法调整。例如,支付平台的主要目标是帮助用户实现方便快捷的支付。为了实现这一目标,数据科学家和工程师不断更新算法,让用户能够拥有越来越好的用户体验。这种策略在商业上是必要的,但在数据生成机制方面会导致不同时期的数据无法比较。如果数据分析团队和算法进化团队沟通不畅,数据分析团队不知道算法调整对数据生成机制的影响,就会将数据变化误认为是市场的真实变化,导致误判。

    金融大数据的代表性有待验证。目前,金融科技公司与金融机构之间的贷款扶持和联合贷款对充分发挥金融科技公司的技术优势和金融机构的资金优势,提高资金配置效率发挥了重要作用。但不可忽视的是,金融科技公司和金融机构都有自己特定的客户群体,所以无论是适用于某个平台的客户群体分析,还是适用于某个区域的金融科技公司和金融机构的合作模式,都可以推向其他区域,即金融大数据是否具有代表性的问题,需要进一步验证。

    这个问题的重要性可以通过 2020 年人工智能领域的热议事件来证明。当时,用户输入奥巴马的低分辨率照片后,PULSE 算法输出高分辨率的白色图像,而这种偏差的主要解释是训练集中的大部分照片都是白色照片。如果金融科技公司的具体人口统计数据与训练集中的白人图片相似,而金融机构的目标客户群与奥巴马图片相似,那么就会出现代表性不足的问题。例如,新冠肺炎疫情暴发之初,餐饮业受到很大影响。如果通过分析某餐饮行业平台产生的大数据得出小微企业的影响严重程度,然后指导全市其他行业小微企业的贷款发放,可能会比较高。估计不良率的发生。

    许多金融大数据分析模型的可解释性较低。基于金融大数据分析的模型大大提高了计算效率,但也有代价,模型的可解释性低是一大问题。其中,常用的模型有逻辑模型、决策树模型(如随机森林、梯度提升模型)、支持向量机模型、卷积神经网络模型等。这些模型的共同特点是寻找最优预测,所以探索不同经济金融特征与预测目标之间的因果关系不是机器学习模型分析的重点。这就导致了两个不容忽视的问题:一是“知实不知其故”,除了logistic模型对数据生成机制的假设更清晰,参数的含义更清晰,其余模型都是从输入到输出。它被表示为一个“黑匣子”;二是忽略模型结果实际存在的主观性。

    决定金融机构是否需要向个人提供贷款。以大数据中可能有数千个客户的数据作为输入输入一个模型,该模型最终会给出预测,即具有某些特征的人可以贷款,而具有其他特征的人则不应该。在传统的金融模式中,贷款发起人与贷款负责人之间有着密切的关系,这就要求信贷员对发放贷款的原因有一个清晰的认识。但是基于机器学习的模型只给出“送还是不送”的决策建议,没有给出“为什么送或者不送”的理由,会让“知道的客户”你”失去控制。

    另一个常见的误解是,由于贷款发放决策是由机器学习模型做出的,因此该决策必须比人类决策更客观。但是,由于越复杂的机器学习模型需要人工预先设置参数,模型越复杂,需要设置的参数就越多。例如,使用卷积神经网络模型做出监督分类决策可能需要预先指定数百万个参数。在参数过多的情况下,设置会受到更大的主观性影响,导致更复杂的机器学习模型的结果可能不会更好的现象。

    很多平台在介绍自己的大数据分析优势时,都强调“零人工干预”带来的效率提升。上述分析表明,当数据量大时,结构变化难以识别,数据表示不清晰,数据生成机制因经济金融因素以外的因素发生变化,模型可解释性低,应该谨慎说“零人工干预”。这是因为,在金融大数据分析存在上述挑战的情况下,如果大量贷款决策是在“零人工干预”的情况下做出的,即决策责任从人转移到机器,那么当模型的预测能力下降时,很难区分是数据问题、算法问题、外部环境问题,还是内部治理问题。这种数据治理结构的金融安全风险不容小觑。

    加强金融大数据治理的建议

    提高大数据使用透明度,加强大数据质量评估。由于大数据量大,分析难度大,不仅大数据的采集过程可能是一个“黑匣子”,大数据分析的过程也可能是不透明的。例如,在 GFT 案例中,研究人员指出,谷歌从未指定使用哪些 45 个关键字进行搜索;尽管谷歌工程师在 2013 年对数据算法进行了调整,但谷歌并未披露相应的数据,也没有说明此类数据是如何收集的。与透明度相关的是大数据分析结果的再现性问题。因为 GFT 使用的数据对于谷歌以外的研究人员来说很难获得,使用数据很难复制和评估分析结果的可靠性。这种数据生成和分析的“黑匣子”特性很容易成为公司或机构操纵数据生成过程和研究报告结果的温床。通过提高金融大数据分析的透明度,建立健康的数据分析文化,是巩固金融信息基础设施的重要一步。

    在保护隐私和数据安全的基础上,通过增加传统数据和大数据的开放共享,解决企业数据粒度高、代表性不足的“信息孤岛”问题。在具体实现上,可以根据数据所有权属性的不同,分层实现策略。对于属于公共产品的数据,政府部门需要在不涉及保密的情况下,尽可能向社会和公众开放政府数据。对于大数据征信产品等准公共产品,可采取俱乐部付费产品模式,推动政府推动的企业与相关金融科技公司共同开发相关征信数据。对于基于大量个人数据、数据归属难以界定的大数据,可采用安全多方计算、同态加密、联邦学习等技术研发,让数据拥有方实现变现与其他组织不同的数据敏感信息。数据共享和利用。最后,可以进一步探索开放银行模型和数据信任模型在不同场景下的适用性。数据共享和利用。最后,可以进一步探索开放银行模型和数据信任模型在不同场景下的适用性。数据共享和利用。最后,可以进一步探索开放银行模型和数据信任模型在不同场景下的适用性。

    驱动数据和模型算法审计。要求公司出具经审计的财务报表是国内外为确保金融市场健康运行和保护相关方利益的通行做法。这种做法的逻辑是,由于公司的内部运作对外部投资者来说也是一个“黑匣子”,管理者可能会滥用这种信息优势对投资者;通过要求公司提供第三方独立审计的运营报告,可以在一定程度上帮助遏制这一问题。由于大数据分析的算法模型也具有类似的“黑箱”特性,欧美等发达国家和地区的监管机构已经开始探索数据和模型算法审计相关工作。欧盟’ s 例如,《通用数据保护条例》要求公司解释其算法决策过程。应对数字金融治理问题带来的相应金融风险,我国应提前做好部署,探索金融大数据相关算法审计的可行性,推进算法模型审计师培训。

    加强算法模型治理是巩固数字金融基础设施的重要内容。由于金融大数据的算法和模型不仅涉及计算机科学和机器学习方法,因此在使用相应模型时不应高估“零人工干预”的重要性。事实上,好的算法和模型治理机制需要结合人类的创造力、主动性,以及机器和大数据的优势。通过促进精通计算机科学、机器学习方法、金融专业,甚至心理学、行为经济学、伦理学等领域的专业人士的共同努力,实现及时发现和解决算法模型相关问题的目标,并推动数字金融市场发展。稳步发展。

    站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!
    欧资源网 » 沈艳:数字金融基础设施中的新风险隐患的主要原因

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    欧资源网
    一个高级程序员模板开发平台

    发表评论