伴随产业数字化发展及城市数字化建设,跨机构跨行业的合作越来越频繁、政府和企业面临的场景越来越复杂、数据挖掘的广度和深度也日益增长,因此机构间数据共享和数据融合的需求也越来越强烈。同时,互联网数据分散在不同企业或终端而形成“数据孤岛”现象也亟需破解,基于此背景,联邦学习应运而生。联邦学习定义了机器学习框架,在此框架下,通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题,可以做到在不泄露隐私数据的情况下实现企业间的数据融合建模。

  近日,京东数字科技集团(简称:京东数科)正式推出自主研发的联邦学习平台——Fedlearn,旨在更好地挖掘数据价值,实现多方共赢的机器学习,在满足数据隐私安全和监管要求的前提下,让人工智能系统更加高效准确地共同使用各自数据的机器学习框架。

  “最强大脑”打造的Fedlearn平台

  联邦学习在产业应用方面此前曾面临一系列挑战——由于需要传递梯度信息,容易导致基于梯度信息的构造攻击;需要对梯度加密,虽然增加了安全性,但是也极大损失了算法的效率;传统联邦学习基于同步更新,浪费了大量的计算资源。如何设计既能保证安全性又具有高效率的联邦学习算法以满足产业AI应用需求,是业界面临的突出难题。

  为解决这一问题,京东数科正式推出了自研的Fedlearn平台,该平台具有三大特点。第一,在数据和模型隐私方面,不同参与方之间没有直接交换本地数据和模型参数,而是交换更新参数所需的中间数值。同时,为了避免从这些中间数值中恢复数据信息,采用增加扰动对这些数值进行保护,确保了数据和模型的隐私安全。其次,在通讯方面,引入中心化数据交换的概念,使得数据的交换独立于参与方。最后,采用异步计算框架,极大地提高了模型训练的速度。

  融合了密码学、机器学习、区块链等联邦学习算法的Fedlearn平台,搭建出一套安全、智能、高效的链接平台,在各机构数据不用向外传输的前提下,通过联合多方机构数据,实现共同构建模型等多方数据联合使用场景,获得加成效应。相较于传统的数据共享交换方法,Fedlearn平台创新性地提出了并行加密算法、异步计算框架、创新联邦学习等技术架构,在保证数据安全的前提下提升学习效率,并逐步达到融合亿级规模数据的能力。

  在京东数科开发Fedlearn平台的过程中,也实现了多项业界首创技术,譬如近期实现的“基于核的非线性联邦学习算法”。在安全性上,这一方法不传输原始样本及梯度信息,充分保护数据隐私;在快速性方面,这一方法使用首创的双随机梯度下降,大大提高计算速度,充分利用计算资源,通过增加扰动提高数据的安全保护。这一技术创新已经形成了论文《解决多方垂直联邦学习的安全核学习算法》(Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data),并被顶级学术会议KDD 2020接受。

  Fedlearn平台以多自研联邦学习算法、多方同态加密、轻量级分布式架构、区块链与联邦学习融合、数据安全容器、一站式操作平台“六位一体”核心能力,长效保持自身行业竞争力,其背后的项目团队成员更是90%以上都拥有算法、密码学或机器学习方向的博士、硕士学历,用京东数科AI实验室首席科学家薄列峰的话说,就是“我们在用‘最强大脑’驾驭和梳理联邦学习”。

  联邦学习领域的“增长官”

  “联邦学习并不会损害模型效果,反而能够提高业务模型效果”,京东数科风险管理中心智能模型部负责人彭南博表示,“在京东数科风控‘联邦模盒’产品业务实践中,着实取得较于传统联合建模更优的效果”。究其原因,一方面,联邦学习理论上是能够获得最优解的,即通过梯度下降迭代过程,可以实现联邦间的特征组合和交叉建模,从而解决如“异或”这样的非线性问题;另一方面,由于能够保护数据隐私安全,因此无需限制建模样本的数量,使联邦学习可以使用更多数据建模,基于大数据更有效发现数据规律,进而提升模型效果。

  另外在风控建模合作中,业务方通常还会要求模型具备较高的可解释性,也就是说,模型自己能够解释预测的结果、为什么会做出这样的预测。例如,在信贷风控中,根据多头借贷风险常识,借贷申请数量越多风险越大,若在模型中表现相反,有极大可能性是数据问题导致模型发生错误,此时部署上线将造成金融业务的坏账损失。然而联邦学习的主张是保护用户隐私,使得传统联邦模型很难进行细节解释,当前风控最常用的联邦XGB算法,因其分裂方向暗含了特征取值区间,需要隐藏特征含义才能保护数据,所以联邦模型的不可解释性成为联邦学习面向风控应用的又一大难题,目前市场上的联邦学习产品训练出的模型往往不可解释。

本文链接地址:https://www.0755news.net/tech/4692.html

  • 免责声明:本网站的新闻资讯页面文章、图片等稿件均为第三方转载。文章版权归原作者所有,如稿件涉及版权等问题,请与我们联系删除或处理。稿件内容仅为传递更多信息之目的,不代表本网观点。