《表2 横向联邦学习:上海某保险公司B数据示例》
以两个数据孤岛为例,用矩形(D)来表示每一个数据拥有方的数据集,矩形的每一行代表一个对象ID(i),每一列代表当前ID的某一种特征(x),根据特征预测每个ID的标签(y)。以不同城市的两家保险公司A和B为例,他们分别具有客户集(i1,i2…)和特征集(x1,x2…),不难发现,由于保险公司在不同的两个城市经营,因此他们的客户重叠较少;但是,由于保险公司所经营的业务类型相似,他们的客户特征具有较多的相同字段,如表1和表2所示,北京和上海的两家保险公司虽然客户没有交集(i),但是客户特征(x)交集较多,例如“性别”、“职业”、“年龄”等;并且两家公司数据都包含标签(y),即“是否购买意外伤害险”。在这种情况下,用特征重叠的A公司和B公司的所有客户信息作为训练数据,进行联邦学习,并将这种联邦学习称为“横向联邦学习”,如图2所示,红色虚线标识了训练数据范围。横向联邦学习模型的形式化定义如公式(1)所示[8],这种模型可以解决单边数据量不够,造成学习效果不理想的问题。
图表编号 | XD00164972900 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.20 |
作者 | 贾延延、张昭、冯键、王春凯 |
绘制单位 | 中国再保险(集团)股份有限公司博士后科研工作站、中国科学院计算技术研究所、中国电子科技集团公司电子科学研究院、中国再保险(集团)股份有限公司信息技术中心、中国再保险(集团)股份有限公司博士后科研工作站 |
更多格式 | 高清、无水印(增值服务) |