潮科技|隐私计算技术的三大主流门派(10)
2023-06-03 来源:旧番剧
2.2 安全沙箱/安全屋
安全屋主要是通过物理方式对数据的所有权和使用权进行分离,通常使用中心化和分布式相结合的混合架构,即各个数据提供方按照主控平台的接入规范统一接入平台,而所有管理权限由主控平台统一提供,各个参与的数据源方提供数据区的维护能力,通过这种方式来确保数据的整个流通过程安全可控的一种技术方案。
通过安全屋的方式,可以一个构建包含了数据源方,算法方,数据需求方,渠道方等多种用户角色的生态系统。安全屋在此生态中作为一个中立的第三方,通过安全的方式引入多样性的数据源,并协调和保证各参与方能够各司其职,形成数据流通生态闭环。
3、「武当派」:联邦学习
隐私计算发展的另外一个重要技术方向是联邦学习。 联邦学习作为分布式的机器学习新范式,以帮助不同机构在满足用户隐私保护,数据安全,和政府法规的要求下,可以进行数据联合使用和建模为目的。主要解决的问题就是,在企业各自数据不出本地的前提下,通过加密机制下的参数交换与优化,建立虚拟的共有模型。这个共有模型的性能和传统方式将各方数据聚合到一起使用机器学习方法训练出来的模型性能基本一致。通过这种方式,可以从技术上有效解决数据孤岛问题,让参与方在不泄露用户隐私数据的基础上实现联合建模,实现AI协作。
联邦学习被用来保护用户数据的隐私,但是它和上述的隐私保护理论,如差分隐私保护(Differential Privacy)、K匿名(K-Anonymity)和 L-多样化(L-Diversity)等方法还是有较大的差别的。联邦学习通过加密机制下的参数交换方式保护用户数据隐 私,加密手段包括同态加密等,其数据和模型本身不会进行传输,因此在数据层面上不存在泄露的可能,也不违反更严格的数据保护法案如 GDPR 等。 而差分隐私、K 匿名和L多样化等方法是通过在数据里加噪音,或者采用概括化、隐匿化的方法模糊某些敏感属性,直到第三方不能区分到个体为止,从而以较高的概率使数据无法被还 原,以此来保护用户隐私。但是从本质上来说这些方法还是进行了原始数据的传输,存在着潜在被攻击的可能性。在目前 GDPR 等更严格的数据保护方案下,联邦学习是对用户数据隐私保护更为有力的手段。
联邦学习主要分纵向联邦学习和横向联邦学习。 其中横向联邦学习中多方联合训练的方式与传统的分布式机器学习(Distributed Machine Learning)有部分相似的地方。传统分布式机器学习涵盖了多个方面,包括把机器学习中的训练数据分布式存储、计算任务分布式运行、模型结果分布式发布等,参数服务器(Parameter Server)是传统分布式机器学习的一个重要组成部分。参数服务器作为加速机器学习模型训练过程的一种工具,它将数据存储在分布式的工作节点上,通过一个中心式的调度节点调配数据分布和分配计算资源,以便更高效的获得最终的训练模型。而对于联邦学习而言,首先在于横向联邦学习中的工作节点代表的是模型训练的数据拥有方,其对本地的数据具有完全的自治权限,可以自主决定何时加入联邦学习进行建模,相对地在参数服务器中,中心节点始终占据着主导地位,因此联邦学习面对的是一个更复杂的学习环境;