1.联邦学习定义

​ 联邦学习强调的核心理念是数据不动模型动,数据可用不可见,这就保证了数据在不出本地的前提下,各参与方之间协同训练模型。联邦学习是利用分散在各参与方的数据集,通过隐私保护技术融合多方数据信息,协同构建全局模型的一种分布式训练方式。在模型训练过程中,模型的相关信息(如模型的参数、模型结构、参数梯度等)能够在各参与方之间交换(交换的方式可以是明文、数据加密、添加噪声等),但是本地训练数据不会离开本地。

1.1 联邦学习性能损失

​ 联邦学习性能损失存在两种定义方式:一种狭义联邦学习性能损失;另一种是广义联邦学习性能损失。

狭义联邦学习性能损失:在分布式数据源上本地训练的性能近似于所有数据集中到一个地方进行训练的性能。

广义联邦学习性能损失:在分布式数据源上本地训练的性能存在比所有数据集中到一个地方进行训练的性能好的情况。例如多个参与方进行联邦训练时,如果部分客户端的数据质量都很差(比如客户端故障),那么将导致集中式训练结果会很差,但是联邦训练会在开始训练时对客户端进行检测,异常客户端将被剔除,所以联邦式训练性能自然要比集中式训练好。

2.联邦学习分类

根据不同数据拥有者的数据特征空间与样本空间的重叠关系不同,联邦学习分为三种类型:横向联邦学习;纵向联邦学习;联邦迁移学习。根据如何协调数据参与者构建模型可以分为集中式拓扑架构和对等网络拓扑架构。

2.1 横向联邦学习

​ 横向联邦学习适用于联邦学习的参与方的数据特征有重叠,参与方拥有的数据样本(用户ID)不同。例如有两家不同地区的银行,他们可能存在很少的客户重叠,但是客户的数据可能因为相似的商业模式而由相似的特征。

image-20230215204344211

2.2 纵向联邦学习

​ 纵向联邦学习适用于联邦学习参与方训练数据有重叠的数据样本(用户ID),在特征上有所不同

image-20230215204355538

2.3 联邦迁移学习

​ 联邦迁移学习适用于参与方的数据样本和数据特征都很少重叠的情况,以两个参与方为例,一方代表源域,另一方代表目标域,在源域中学习特征的分布,将源域的特征迁移到目标域中,但是迁移过程中,本地数据同样不会离开本地。

image-20230215204405923

2.4 协调方式分类

集中式拓扑:一般存在一个中心计算方(可以是独立于参与方的服务器,可以是某一个特定的参与方),该中心计算方承担收集其他各方传递的模型参数信息并经过相应算法更新后返回各方任务。

对等网络拓扑:此种结构下,不存在中心计算节点,各参与方在联邦学习框架中的地位平等,离散式拓扑不用讨论中心计算方是否会泄露隐私或者遭受攻击,所以离散式拓扑更为安全,但是设计难度大。