导图社区 Blind Justice Fairness with Encrypted Sensitive Attributes
机器学习公平性研究Blind Justice Fairness with Encrypted Sensitive Attributes
编辑于2023-08-01 16:39:44 广东Blind Justice: Fairness with Encrypted Sensitive Attributes 盲目正义:带有加密敏感属性的公平
Abstract 摘要
研究了如何训练机器学习模型
使模型不歧视任何人
性别
种族
敏感属性
为避免区别对待,不应考虑敏感属性
为了避免产生不同的影响,必须检查敏感属性
介绍了来自安全多方计算的方法
使我们能够避免两者
展示了如何学习和检查基于结果的公平模型
通过对敏感属性进行加密
验证其结果并追究其责任
无需用户透露其敏感属性
Introduction 简介
越来越多的人担心,机器学习系统会制定或影响个人的重要决策
汽车保险价格
筛选或接受伪造
不公平地歧视某些特定人群
日益增长的公平学习领域
寻求形式化相关要求
通过改变算法决策流程的各个部分,来发现并减轻潜在的歧视
大多数法律问题上的歧视都集中在基于敏感属性
性别
种族
歧视的两种类型
区别对待(直接歧视)
不同影响(间接歧视)
建模者必须访问训练数据中的敏感属性
为了避免两类歧视
无法实现的原因
个人不希望将敏感属性委托给程序中的建模者
加剧隐私泄露风险
法律会限制敏感个人数据的收集和处理
解决方法
信任的第三方参与
难点:须向第三方提供敏感属性
不公开读取敏感属性的情况下检测的方法
本文贡献
使用安全的多方计算(MPC)
好处
可以进行可审核的公平学习
确保敏感属性和模型对其他各方保密
应用程序包括
公平认证
如果模型满足给定的公平性约束,生成证书
公平的模型训练
给定个人数据集,学习可以保证公平的模型
决策验证
验证结果是否与先前认证的模型结果相匹配
Fairness and Privacy Requirements 公平和隐私要求
Assumptions and Incentives 假设与激励
假设参与者分为三类
建模者M
监管者REG
用户U1,...,U2
每个用户Ui
敏感特征的向量zi
非敏感特征的向量xi
希望保持私密性
建模者M希望训练一个模型
该模型不使用敏感信息
建模者M有义务向监管者REG展示模型满足公平
监管者R
确保M仅部署符合状况F的模型:
Fairness Criteria 公平标准
机器学习中形式化公平的工作
通过在具有不同敏感属性的群体之间平衡某种条件来实现
几种受欢迎的条件
(1)准确性 (2)真实阳性率 (3)真实的负利率 (4)正预测值 (5)负的预测值 (6)录取率
本文关注的是条件(6)的变形
Zafar等人将其定义为约束优化问题
实现目标
作者认为类似的MPC方法也可以用于其他条件
Certification, Training, and Verification 认证,培训和验证
Fairness certification 公平认证
给定公平概念F,M想与REG合作,以获取模型是公平的证书
作者建议用户
将其非敏感数据D发送到REG
并将敏感数据Z的加密版本发送到M和REG
设计了一个安全协议
因为M和REG都无法读取敏感数据
用以证明模型是否公平
需要以下隐私约束
(C1)敏感用户数据的隐私:除了Ui以外,没有人能清楚地学会Zi
(C2)模式保密:只有M清楚地学习¦q
(C3)最小程度地向REG披露D:只有REG清楚地知道D
Fair model training 公平模型培训
作者建议用户
原因
在不访问用户敏感数据的情况下,建模者学习公平模型
将其非敏感数据D发送到M
并将敏感数据Z的加密版本发送到M和REG
在M和REG之间,安全的MPC协议私下训练一个公平模型¦q
隐私约束
(C1)敏感用户数据的隐私
(C2)模型保密
(C3)D向M披露的最小限度
Decision verification 决策验证
验证情况
假设一个恶意的M已经通过REG成功地验证了模型
用户可以通过请求REG验证v来质疑该决定
验证涉及M和REG
验证评价
没有简单的技术方法来阻止恶意的M部署不公平的模型
但用户挑战一个决定,¦q会出现不同操作,M会被抓住
隐私约束
当REG和用户了解验证结果时
(C1)敏感用户数据的隐私性
(C2)模型的机密性
Design Choices 设计选择
使用监管者(调节器)的原因
公平学习对弱势个体最有利,作者不希望在个人负担沉重时阻止采纳
引入调节器可以解决问题,并使 用户的计算负担降至最低
mpc在没有监管者参与的情况下进行,会带来巨大的计算成本
鉴于用户群的规模和同时在线的要求,采取目前使用的方法不现实
扩展这三个所有任务的原因
但阻碍建模者的探索性数据分析
用户不愿意与REG或M共享D
使所有xi、yi、zi保持私有状态的最简单方法
计算成本只增加了2倍
将M的视图限制在最终模型中,禁止在D已知时对Z进行推断
Our Solution 我们的解决方案
方案为多方计算(MPC)
MPC for Machine Learning 机器学习的MPC
多方计算协议允许
参与方P1和P2评估商定的函数¦
参与方拥有秘密值x1和x2
以双方仅学习的方式评估
步骤
(i)检查模型公平性并对其进行认证的程序
(ii)具有公平性约束的机器学习培训程序
(iii)模型评估验证决定
解决问题
无通用解决方案,必须针对所需功能定制协议
MPC方法已成功用于多种机器学习任务
逻辑和线性回归
神经网络训练
评估
矩阵分解
主成分分析
Challenges in Multi-Party Machine Learning 多方通讯机器学习的挑战
MPC协议可分为两类
根据目标函数为布尔运算电路或算术电路
协议通过让各方共同评估电路来进行
逐门处理电路
同时,保持双方隐藏的中间值
通过秘密共享方案
依据输入数据执行不同分支的算法,编码为电路时规模激增,不能保证运行时间
MPC协议被局限于定点模拟
MPC的另一个必要条件
非线性函数,可以通过线性函数模拟
Our MPC Protocols 我们的多方计算协议
Input sharing 输入共享
需要一个安全的过程
以便用户与建模者M和监管者REG共享共享的敏感值
双服务器模型
将REG和M所持有的密钥重新解释为它们对应的敏感属性
认证和验证部分对应于公平训练任务的子程序
将计算外包给不合作的双方
Signing and checking a model 签名和检查模型
检查公平约束F,并反复评估训练数据集上的部分模型(使用梯度下降)
REG获得一个签名S作为模型认证的结果
签名用于在验证阶段检查给定的模型
保持模式的机密性
REG不能够从S中恢复回来
加密函数
加密哈希函数
SHA-256
共享密钥下的对称加密
AES
Fair training 公平的培训
自定义MPC协议扩展为逻辑回归
可以额外处理线性约束
保证公平性
保护隐私
Proposition 1 命题1
我们的协议实现了公平模型训练功能
对于无勾结的M和REG
存在半诚实的对手的情况下
满足2.3节中约束条件(C1)-(C3)
这个证明在随机oracle模型中成立
算术共享
乱码电路
半诚实模型中的灵活传输协议的安全性
Technical Challenges of Fair Training 公平培训的技术挑战
学习和评估具有加密敏感属性的公平模型
目前的公平学习算法优化技术对于定点数据是不稳定的
作者描述了最适合用于定点数表示学习的优化方案
作者将技巧与非线性函数结合起来,通过专门运算,使定点算术避免上溢和下溢
Current Techniques 当前的技术
解决等式(8)中的优化问题
利用eq.(9)中的公平函数F,采用序列最小二乘规划
技术原理
将eq.(8)重新表述为一个二次程序序列(QPs)
解决每个QP后,使用一种拟牛顿的Han-Powell方法,更新迭代逼近目标函数
存在问题
在MPC中求解一系列QPs非常耗时
除非常数和非整数容易溢出
Fixed-Point-Friendly Optimization Techniques 定点友好优化技术
解决等式(8)的优化问题
执行随机梯度下降和试验,以纳入约束
投影梯度下降
特别考虑基于p%规则的概念
计算得到的二进制交叉熵损失ℒBCE的梯度,并返回约束集
最小化L,使用随机梯度下降法(交替更新)
内部点对数屏障
训练量增加
使解决方案可以移近边界
可以执行常规(随机)梯度下降
物镜梯度由简单闭合形式表示
发现La-grangian乘数技术是最有效的
在产量精度方面,可靠地保持在约束范围内
对超参数变化如学习粒度或批大小具有健壮性
MPC-friendliness MPC友好性
作者评估后,计算等式(9)的三种方法中的梯度更新
使用基本线性代数(矩阵乘法)评估
使用逻辑函数评估
MPC优劣
适合于线性运算
非线性函数的使用成本过高
划分费用过高
假设所有计算都是在加性共享机密上共同执行
将两因子分块(b×b),对每个块矩阵乘法再块加总,进行归一化
再将总和乘以b/n,避免欠量和溢出,获得(近似)A后,再求助于法线矩阵乘法
将小批量大小设置为2的幂
Experiments 实验
概述
技术难题原因
必须使用定点数
精度的损失
MPC的高计算成本
运行时间不可行
本节展示
如何克服这两个问题
公平的培训,认证和验证对于现实数据集可行
Experimental Setup and Datasets 实验设置和数据集
使用两个单独的代码库
作者的Python代码未实现MPC,无法在浮点数、定点数和非线性函数之间灵活切换
设计选择
用于验证和经验指导
完整的MPC协议是用C++中实现的,实现基础为
Obliv-C乱码电路框架
加密工具包
MPC协议准确地反映了第一个对加密数据执行的计算
除了表1中的计时结果,所有与浮点数或非线性的比较都由Python实现
作者还运行Zafar等人所生成的合成数据,因为
允许控制敏感属性和类标签之间的相关性
适合观察不同的优化技术是如何处理公平-准确权衡
Comparing Optimization Techniques 比较优化技术
评估三种优化技术的有效率
图2显示了测试集在约束值上的准确性
综合数据集在准确性和公平性之间表现出明显的权衡
拉格朗日技术紧随基线
iplb表现稍差,通过缩小参数矢量θ满足p%规则(对小c而言失败)
数据集上应用
COMPAS数据集最具挑战性
包含7个敏感属性,其中之一只有10个确定实例
分类器倾向于崩溃为否定预测
基于SGD的方法似乎特别容易崩溃
投影梯度方法在Bank数据集上不可靠
拉格朗日乘数技术最可靠
与SLSQP的准确度最大偏差为<4%
图2显示,逻辑函数使用分段线性逼近不会破坏性能
Fair Training, Certification and Verification 公平的培训、认证和验证
图3所示
当我们降低公平性约束c时,两组有正结果用户的比例逐渐平衡
解释为,随着约束的严格而减轻了不同影响的程度
贡献
具有能有效地满足p%代理规则的技术
技术
固定点数
拉格朗日乘数(非线性分段线性近似)
能够以与基线相近的速率满足
数据集
COMPAS数据集的崩溃比SLSQP的崩溃更快
由于有来自多个敏感属性的约束
在Bank数据集中,对于较大的c,z = 1的正结果分数有所不同
除COMPAS数据集外,其他所有元素的准确度只有很小的损失
Discussion 讨论
证明了使用MPC进行私有和公平模型培训,认证和验证的可行性
克服准确性以及上溢和下溢与定点数有关
使用第4节介绍的方法和技巧
便携式计算机上相当大的数据集提供可行的运行时间
离线预计算与快速的C ++实现相结合
Conclusion 结论
公平学习饱受两难境地
为了增强公平性,必须检查敏感属性
用户不愿意透露敏感属性
建模者在收集和使用敏感属性受到法律限制
解决方法
引入MPC的最新方法
扩展为处理各种公平概念所需的线性约束
作者贡献
证明了MPC在现实世界的数据集上可行
(i)证明并签署一个公平的模型
(ii)学习公平的模式
(iii)确认确实使用了公平认证的模型
保持所有用户敏感属性的加密隐私
将隐私,算法公平性和问责制等问题联系起来
监管机构能够提供更好的监督
建模人员能够开发公平和私有模型
用户保留他们认为高度敏感的数据控制权