《表2 横向联邦学习:上海某保险公司B数据示例》

《表2 横向联邦学习:上海某保险公司B数据示例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《联邦学习模型在涉密数据处理中的应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

以两个数据孤岛为例,用矩形(D)来表示每一个数据拥有方的数据集,矩形的每一行代表一个对象ID(i),每一列代表当前ID的某一种特征(x),根据特征预测每个ID的标签(y)。以不同城市的两家保险公司A和B为例,他们分别具有客户集(i1,i2…)和特征集(x1,x2…),不难发现,由于保险公司在不同的两个城市经营,因此他们的客户重叠较少;但是,由于保险公司所经营的业务类型相似,他们的客户特征具有较多的相同字段,如表1和表2所示,北京和上海的两家保险公司虽然客户没有交集(i),但是客户特征(x)交集较多,例如“性别”、“职业”、“年龄”等;并且两家公司数据都包含标签(y),即“是否购买意外伤害险”。在这种情况下,用特征重叠的A公司和B公司的所有客户信息作为训练数据,进行联邦学习,并将这种联邦学习称为“横向联邦学习”,如图2所示,红色虚线标识了训练数据范围。横向联邦学习模型的形式化定义如公式(1)所示[8],这种模型可以解决单边数据量不够,造成学习效果不理想的问题。