导图社区 Review of Mathematical frameworks for Fairness in Machine Learning
机器学习公平性研究--Review of Mathematical frameworks for Fairness in Machine Learning
编辑于2023-08-01 16:43:01 广东Review of Mathematical frameworks for Fairness in Machine 机器学习公平性数学框架的回顾
Abstract 摘要
从数学的角度回顾了过去几年文献
主要公平定义
公平学习方法
基于独立的方法,考虑了
如何构建公平的算法
算法性能下降的后果
与可能不公平的情况相比
相当于给出了公平价格,根据
统计等值
概率相等
给出了概率相等意义下的表达式
最优公平分类器
最优公平预测器
在线性回归高斯模型下
Introduction 介绍
背景
模型的概念发生了变化
首先根据先前的物理或生物模型设计
然后通过实验来测试模型的有效性
模型能一直维持
除非新的观察结果推翻它的假设
随着存储、共享和流数据的新方法的引入, 以及计算机处理大型计算能力的急剧发展
大数据领域引入了一种新的范式
观察数据传递了足够的信息
能理解现实生活复杂性
数据越多,对现实的描述越好
建立适合数据的模型是有效方法
获得可概括的模型
能够描述和预测现实世界
原理
监督机器学习的原理
建立决策规则
从被称为学习样本的例子中
规则符合数据
规则成为一个模型或决策算法
将用于所有人
数学可提供泛化误差控制算法
在某些情况下
对应所做近似建筑模型,基于
观察
不知道模型生成的数据集
当只知道其经验分布
假定遵循未知分布
给出了界限来测量误差
误差在观测数据上拟合模型
然后使用模型来获取新数据
潜在的假设
观察遵循完全相同的分布
观察可以由学习样本正确估计
学习样本中潜在存在的偏差
被隐式地学习
并纳入预测中
提供的预测是从准确的黑盒子中提取
黑盒子没有任何控制
选择黑盒子的原因没有被理解
当算法缺乏可解释性时,不受控制的预测的危害就越大
模型
机器学习算法的目的
学习特征变量X和目标变量Y之间的关系
学习后预测新的观察结果
在监督设置中
将学习样本设为(Y1,X1),…, (Yn,Xn)
观测值独立同分布来自未知分布ℙ
设经验分布
预测的质量用来衡量误差。
使用损失函数来衡量
损失函数是可以通过最小化ℱ来估计的最佳模型
损失函数
可能有惩罚来防止过度拟合
对于给定的选择类algortihms ℱ
λ在偏差和算法效率之间的贡献进行平衡
预言规则是可构建的最好的(未知的)规则
如果¦*的真实分布是已知的
预测由公式给出
机器学习理论的结果确保了对于规则ℱ的正确选择
预测的误差接近于预言
从数学的角度来看,超额风险很小
最优预测模型能够重现学到的东西
数学上的保证确定了
从学习集中学到
用于新的观测
模型塑造现实
根据习得的规则塑造
没有疑问,也没有进化
A definition of fairness in machine learning as independence criterion 公平定义在机器学习作为独立标准
Definition of full fairness 完全公平的定义
介绍
机器学习是一个强大的工具
改善人类生活
不同的技术应用的发展
驱动无人驾驶汽车
正确认识癌症在射线照片
基于过去的行为预测我们的行为
好处
模型分类
预测中存在的偏差
随着预测算法在各个领域的广泛应用
算法公平性受到学术界和大众的关注
评估各种机器学习算法中是否出现偏差
提出各种分类,来理解不同来源的数据偏差
对人们的日常生活和活动产生重大影响
贡献
考虑
概率空间
B波莱尔σ代数子集
假设
偏差是由随机变量S来建模
表示观察值X的信息
不应被纳入对目标Y的预测模型中
称为受保护属性或敏感属性
在公平学习的文献中
变量S是可以观测到的
提出了两个模型
旨在了解偏差如何被引入算法中
模型一
对应情况
数据受到偏差干扰变量
该变量原则上假设不参与学习任务,并需要去除其对预测的影响
引用著名的狗与狼的例子
其中输入数据是带有高度偏差的图像
在狼的图片中背景有雪
在狗的图片中背景没有雪
如图所示
X是未观察到的公平属性X*的偏置版本,目标变量Y只依赖于X*时
在这个框架中,从X学习导致了偏差
公平要求
X和Y都与受保护的S无关
模型二
对应情况
决定因为引起目标Y的使用而有偏差
有偏差的决定被观测为公平分数Y*的结果
为了使它们独立于受保护变量,公平的模式会改变预测
如图所示
在形式上,需要
其中Y*不被观察
前面的条件并不意味着Y和S之间的独立性(即使是对X有条件地独立性)
公平模型
在统计文献中,当算法的结果不依赖于敏感变量时,称为公平或无偏差
完美的公平要求保护变量S预测目标Y不发挥作用
将会看到保护变量之间的独立性
同时考虑给定目标Y的真正价值
给定与否的真正价值目标Y这两个的公平观念是在文献中被称为:
统计奇偶性(S.P.)
处理算法结果与敏感属性之间的独立性
敏感属性
概率相等(E.O.)
考虑被保护属性和结果之间的独立性, 有条件地给予目标的真实值
目标
选择一个完美的公平模型
选取类限制在
选择有关假设模型的偏差引入算法
统计奇偶性
适用于模型一
概率均等
适用于模型二
特别适合于在训练阶段使用的历史决策中地面真相可用的场景
只处理关于公平的两个主要概念
避免差别待遇
预测均等
决策系统会受到不同的对待。
系统为不同群体提供了不同的结果
不同群体具有
相同(或相似)的非敏感特征值
不同敏感特征值
决策结果建立在敏感特征值的基础上
系统遵循规范的区别对待
劣势一组具有特定敏感特性值(例如,一个特定的种族集团)
不明显地使用敏感特性本身,而是故意把决策建立在相关特性
很难被发现
一些作者认为统计等值框架适合检测这种隐蔽差别
另一些作者只关注显性差别对待
综述
度量标准适用于一般的环境
所有四种公平性度量标准最初都是在二元分类框架中提出的
The special case of classification 特例分类
在二进制分类环境中,公平性已得到广泛研究
统计平价
S∈{0,1}且两子组具有相同成功结果的可能性,就满足了对公平的定义
公式(2.3)
赔率相等(赔率均等)
公式(2.4)
用于寻找算法误差与受保护变量之间的独立性
条件等效于公式(2.5)
直接歧视
以上提到的不同的处理方法
着眼于x∈X的相等性
公式(2.6)
机会均等
只要求真实正比率的相等性
缺乏不同的虐待和机会均等
避免完全不同的虐待
看各组中误分类错误率的相等性
公式(2.7)
预测性奇偶校验
要求两组的阳性预测值相等
数学上满足公式(2.8)
Relationships between fairness criteria 公平标准之间的关系
提议各种标准形式化公平的不同概念有时导致不兼容的公式
研究三个指标的组合
探讨同时满足两个指标的条件
各自概率分布
从条件概率的定义来看
公式(2.9)和公式(2.10)
命题2.1(统计均等与赔率均等)
统计奇偶性成立或赔率相等
条件
S依赖于Y
Yˆ依赖于Y
不能同时成立
结果可以进行锐化
在二进制分类的特殊情况下
公式(2.11)
统计奇偶校验要求
左侧正好为零
右侧也必须为零
命题2.2(统计奇偶性与预测奇偶性)
统计奇偶性成立或预测奇偶性成立
条件
Si依赖于Y
两个公平性指标实际上同时可行
在二元分类设置中
正预测值的差
公式(2.12)
不可预测的奇偶校验要求
左侧必须为零
两组的真实正利率之比为基准利率之比的倒数
公式(2.13)
命题2.3(预测奇偶性与赔率均等)
其他预测奇偶性成立或赔率相等
条件
依附于此
不同时存在
详细地探讨这种不兼容性
在二进制分类框架中
公式(2.14)
两个条件都成立
获得表达式
公式(2.15)
特定组的基本比率s=0
公式(2.16)
特定组的基本比率s= 1
Price for fairness in machine learning 机器学习公平的价格
本节中
作者考虑
如何构建公平算法
与可能的不公平情况相比对性能降低的影响
算法的性能是通过定义的风险来衡量的
定义一些类或类的限制
公式(3.1)
公式(3.2)
限制类来实现公平模型
理论上
可以通过将最小化(1.1)
公平价格
公式(3.3)
Price for fairness as Statistical Parity 公平价格作为统计平价
Regression 回归
统计奇偶性标准给出的完全公平的概念,意味着
预测变量分布不依赖于受保护变量S
统计奇偶条件由分布等式表示
定理3.1
公式(3.4)
满足条件
μs具有密度w.r.t
为每个s进行勒贝格测度
公式(3.4)可变为公式(3.5)
施加公平的代价可以量化
取决于贝叶斯预测因子分布间的2-沃瑟斯差异
公式(3.5)
研究沃瑟斯坦的重心
找到最小值与沃瑟斯坦最小变化的关系
Classification 分类
如果S是二进制
使用Disparate Impact(DI)来量化统计奇偶性
公式(3.6)
如果S是一个多类敏感变量
一个公平的分类器应该满足
s∈S
公式(3.7)
完全不同的影响可以扩展到公式(3.8)
定理3.2(不同影响和可预测性之间的联系)
可预测性的概念和X|S条件分布之间的总变化距离联系起来
定理3.3(总变化距离)
定理3.4
通过最小化先前的数量过量转化TS
可以实现最小的额外风险
获得上限
Price for fairness as Equality of Odds 公平作为赔率平等的代价
研究公平价格意味着几率的无优劣势
在有条件赋予目标真实值的情况下
考察受保护属性与结果之间的独立性
即算法的误差
Regression 回归
线性法线模型
公式(3.9)
线性组合
误差为E= 0
预测变量
敏感属性
非敏感属性
公式(3.10)
分别表示均值和协方差矩阵的向量
线性预测
线性预测可以被视为最适合高斯过程的框架
二阶矩约束
松弛视为合理的公平概念
着重于获取非歧视线性预测变量
公式(3.11)
公平校正向量
用Cs,X,Y表示
精确计算出正常模型下赔率预测器的最佳公平性
公式(3.12)
命题3.5
给出了优化问题的解决方案
在正常模型(3.9)下
线性预测变量
形式为(3.10)
最优公平(几率相等)
量化损失是有意义的
施加奇数条件(β0,β)∈FEO的公平性时
与与最小化器相关的一般损失进行比较
公式(3.13)
实验2重复1000次的结果
如图2所示
提出
平均最小额外风险
标准差
特别取值
取100,200,400,800,1000
取1500,2000,3000,5000,10000
观察到估计似乎收敛
Classification 分类
假设3.6
对于每个∈{0,1}
我们要求映射t∈P在(0,1)上连续
其中对于所有(x,s)∈Rd×{0,1}
回归函数
公式(3.14)
命题3.7(最优规则)
获得最优分类器g*
在假设3.6下
对所有(x,s)∈Rd×{0,1}
备注3.8
恢复机会分类器的最优公平性
确保机器学习中用于分类和回归的公平性
通过量化与损失泛化误差有关的成本
价格对从业者过高
必须将公平性的概念削弱为定量方法
调整观察结果的准确性和公平性间的权衡
Quantifying fairness in machine learning 量化机器学习的公平性
Fairness through Empirical Risk Minimization 通过经验风险最小化实现公平
控制所学习算法的公平性水平
限制完整类型的公平条件
公式(4.1)
将独立性作为惩罚直接引入目标
公式(4.2)
Imposing conditions on the distributions 对发行版施加条件
基于距离的约束
根据将公平定义为独立性标准
旨在量化概率分布之间的距离
基于信息论的约束
设计了不公平惩罚术语
基于统计奇偶性准则
限制了预测与敏感属性之间的相互信息量
基于内核理论的约束
正则化
是现代监督学习中的关键概念之一
允许对当前问题强加
结构性假设
归纳性偏见
Imposing conditions on the expectation 对期望施加条件
统计奇偶性
主题差异得分
公式(4.3)
TPR和FPR间的区别
公式(4.4)
专注于总体精度间的差异
公式(4.5)
提出对统计奇偶性的放宽
公式(4.6)
通过受准则约束的群体损失来保证公平
公式(4.7)
Fairness through Optimal Transport 通过最优运输的公平
多数方法获得公平模型
通过对函数施加约束逼近公平渴望
函数
低阶矩或与不同敏感属性相对应的分布
基于预处理以获得公平待遇的方法
通过将输入的原始分布向其Wasserstein的重心模糊受保护类的值
设置准确性-公平性的折衷方案
通过随机修复的局部修复方法
公平分类和回归方法
适用于许多公平标准
"强人口统计奇偶性"的概念
将统计奇偶性扩展到公平的多分类和回归问题
简单的后处理方法
通过将分布传输到他们的Wasserstein来实现
"Wasserstein 2-Geodesic方法"
用于确定公平性与准确性的折衷方案
Conclusions 结论
介绍了旨在处理机器学习中的偏差问题的数学模型
提出了一个概率框架
解决定义数量多的问题
用来理解公平与独立性(或条件独立性)概念间的关系
将施加公平性建模为相对于敏感变量施加独立性
约束条件由为此独立性选择不同的度量来驱动
对几种公平概念提供其它见解
在此框架内
并量化其对决策规则的影响
特别是
可以先定义
然后计算公平价格
在某些情况下
再量化公平约束对机器学习算法行为的实际影响
研究提供了对公平学习的更好理解
每个不同的定义公平导致了可以在某些情况下进行比较的不同行为
然,仍有许多案例需要进一步研究
以获得完整的公平学习理论框架
作者指出
在这项研究中
没有考虑新的关于公平的有趣观点
从因果关系的角度理解公平性
为机器学习的公平性提供另一种解释
使用案例的反例