导图社区 Controlling Fairness and Bias in Dynamic Learning-to-Ran
机器学习公平性研究Controlling Fairness and Bias in Dynamic Learning-to-Ran
编辑于2023-08-01 16:40:27 广东Controlling Fairness and Bias in Dynamic Learning-to-Rank 在动态学习排名中控制公平和偏见
Abstract 摘要
排名是许多在线平台中用户与商品(例如新闻)进行匹配的主要界面
用户从排名中获取效用
排名决定效用
对用户的近视优化程序对项目提供者不公平
提出等级学习的方法
用于对项目组实施基于绩效的公平保证
提出学习算法
确保
摊销组公平性的概念
从隐式反馈数据中学习排名函数
采用控制器的形式
集成无偏估计量
公正性
实用性
在有更多数据可用时进行动态自适应
严格的理论基础和收敛性保证
凭经验发现,具有很高的实用性和鲁棒性
CCS
信息系统学习排名
关键字
排行;学习排名;公平;偏压;选择偏见;接触
Introduction 介绍
动态排名学习(LTR)
排名功能根据用户提供的反馈动态调整
无所不在
新闻提要排名
适应产品正面评论数
电影推荐系统
学习和预测动态地交织在一起
回溯反馈会影响未来的排名
动态LTR系统存在两大问题
排名系统通过其呈现的排名引起偏差
排名靠前更可能反馈,然后影响排名
排名系统是项目获得曝光量的仲裁者
曝光量影响提供者
观点:新闻的意识形态
经济收益:销售收入
问题导致
经济差异、不公平和两极分化
提出动态LTR算法(FairCo)
执行可配置的曝光分配方案,并解决rich-get-richer动态问题
与现有公平LTR算法不同
FairCo解决了学习问题的动态性质
系统也没有偏差和公平
即使项目的相关性和优点在学习中
方法的核心
基于绩效的曝光分配标准
标准在学习过程中摊销
标准的执行视为控制问题
派生出一个P-控制器
优化曝光的公平性和排名质量
关键组成部分
准确评估绩效(即相关性)能力
新的无偏基数相关性估计量
用作公平性的公正估计
用作排名标准
Motivation 动机
平台首页新闻的排名显示
为动态LTR问题的说明性示例
对文章进行排名
使用朴素算法来学习排名
先以随机顺序为用户展示文章
观察用户阅读,并为文章增加计数器C(d)
根据后面用户的阅读量更新计数器
朴素算法存在两大缺陷
选择C(d)为文章的平均相关性估计
C(d)不是一致估计量
即使有无数用户反馈
C(d)不反映想阅读文章用户的真实数量
排名策略本身
会造成不公平的根源
即使准确地知道文章的真实平均相关性
文章结果呈不同比例
尽管文章具有相似优点(即相关性)
缺陷评价
不受欢迎
带来不希望的后果
偏倚的估计导致排名质量下降
鼓励两极分化
缺陷不仅新闻独有
加剧现有不公平现象(男女求职者)
鼓励垄断,并使一些卖方退出市场
动态LTR算法应满足需求
无偏性
算法不应受到rich-get-richer影响
公平性
算法应强制公平分配曝光量
根据优缺点(如相关性)
作者开发了替代算法
第4节介绍动态学习排名设置
第5节基于公平性的形式化摊销概念
说明了优点本身
在学习过程的开始是未知的
仅在整个学习过程中才被学习
第6节解决偏差问题
提供消除显示偏差的估计器
针对全局和个性化排名策略
第7节提出基于控制的算法
旨在优化排名质量
动态实施公平性
Related Work 相关工作
排名算法
构成了许多在线系统的核心
搜索引擎
推荐系统
新闻提要
在线投票
研究控制推荐和rich-get-richer,通过
探索优化效用角度
确保此类系统的公平性
朴素排名缺点
政治两极分化
错误信息
暴露的不公平分配
马太效应偏见
作者开发出新方法
在动态环境中
减轻偏见和不公平现象
方法
将排名问题视为用户和物品的双向市场
物品从排名系统中获得效用
机器学习方法
背景
人们关注机器学习算法公平问题
人们提出几种公平性定义
范围
二进制分类设置中
推荐和信息检索的排名领域中
定义
曝光公平性
摊销注意力公平
应用于动态设置中
信息检索
人们长期以来根据有偏向的点击数据进行排名
记录的点击数据存在偏差
反馈不完整且呈现方式有偏差
存在基于偏好的方法
点击模型
随机干预
领域新方法
对反馈数据进行反偏,使用
因果推理
缺失数据分析
作者采用了这种方法
将其扩展到动态排名设置
并在第6节中提出新的无偏回归目标
与传统算法有关
实施基于绩效的公平性约束
需要明确评估与用户的相关性
以相关性作为绩效的衡量标准
必须进行探索性干预以确保收敛
针对单击模型假设或存在文档功能设计
主要区别
不考虑通过显式干预进行探索,而只是利用用户驱动的探索。
也可以将显式探索合并到我们的算法中
以提高我们方法的收敛速度
Dynamic Learning-to-Rank 动态学习排名
正式定义动态LTR问题
对传入的请求进行排序,要求为公式1
每个请求都包含
描述用户信息需求的特征向量
对系统可见
用户的真实相关性评级向量
被隐藏
系统从用户那收到反馈向量ct
采用多种形式
不必是二进制
收到反馈ct后,动态LTR算法A会更新排名策略并生成策略πt+ 1
Partial and Biased Feedback 部分和有偏见的反馈
动态LTR的关键挑战
反馈ct仅对用户提供有效反馈
rt包含用户感兴趣的完整信息
用户收集rt信息(et(d)= 1)
无法观察检查向量的事实
反馈值ct(d)=0
缺乏检查(et(d)= 0)
否定反馈(rt(d)= 0)
排名低用户更可能看排名高项目
如公式3所示
多数点击模型可以采用这种形式
作者仅使用基于位置的模型(PBM)
假定检验边际概率pt(d)仅取决于等级(d|σ)
Evaluating Ranking Performance 评估排名表现
衡量排名策略的质量
通过对用户的效用
排名σ的效用U(σ|r)定义为项目相关性的函数
常用的效用度量
DCG
NDCG
由最佳排名的DCG规范化
如公式4所示
Optimizing Ranking Performance 优化排名效果
收敛最大化效用的策略
排名策略的空间是指数级的
最大化问题在计算上具有挑战性
但可以基于排序的策略,如公式5所示
公式6,对于IR(如DCG)中几乎所有U(σ|r)都是最优
通过公式7,得出全球排名
作者设计R(d|x)和R(d)的无偏一致估计量
在第6节中展示
使用因果推断和缺失数据分析
估计量只需要观察到反馈量
Fairness in Dynamic LTR 动态LTR中的公平性
作者将基于绩效的公平性扩展到动态LTR设置中
排名策略在项目之间分配的关键稀缺资源是曝光
采用基于组的公平方法,按组汇总曝光,如公式8所示
组受法律保护的组(如性别、种族)
作者将项目优劣定义为预期的平均收益率(d),再按组汇总,如公式9所示
作者扩展了治疗差异准则所述的方法,如公式10所示
用于动态排名问题
使用公平摊销概念
基于曝光的公平性差异表示
可通过使用差异的替代定义,来实施除比例之外的分配策略,如公式11所示
将差异保持在接近零的水平,控制分配曝光以使影响与相关性成正比,如公式12所示
每组商品的曝光量与其相关性成正比
差距离零越远,对公平的侵犯就越大
在第7节中,作者将得出一个控制器,将这种曝光和影响视差驱动为零
Unbiased estimators 无偏估计量
Estimating the Position Bias 估计位置偏差
位置偏向模型只是作者动态LTR算法的输入
已存在估计位置偏向模型
点击模型
概率pt(d)仅取决于项目在σ中的等级
倾向模型
基于神经网络
捕获某些用户进一步探索某些查询
从显式和隐式交换干预中估计位置的概率
Estimating Conditional Relevances 估计条件相关性
Lr(w)
如公式(13)所示
使用未观察的真实相关性(r1,...,rτ)
评估器Lc(w)
如公式(14)所示
通过训练一个神经网络来进行学习
使用点击和位置倾向来形成一个平方损失的无偏估计量
观察到真正相关度是代替位置偏差点击时
使用评估器估计公平排名的条件相关性
并对其进行保护和评估结果
在真实世界的数据集上测试Fairco算法的有效性
Estimating Average Relevances 估计平均相关性
关键是在Fairco算法中定义误差项时需要平均相关性
R(d)
文档的无偏估计量
无偏意味着IPS估计量收敛到文档的真实关联概率值
ct(d)
在t时刻d上的点击
Pt(d)
d位置的位置偏差
Dynamically controlling Fairness 动态控制公平
Dτ
平均差距
Dτ= 0实现了最佳公平性,因此作者试图使Dτ最小化
Fairco
errτ(d)
误差项
根据修改后的相关度得分来寻找文档
如公式(17)所示
分数
排名
采取比例控制器或P控制器的形式保护
是线性反馈控制系统
校正与误差成比例
解出Merit(G)的估计量的收敛性
如公式(18)所示
从公平交易量的收敛中
Merit(G)已经接近所有G∈G的Merit(G)
如果过去Gi曝光不足,则将Gi排在Gj之前会减少差异
Empirical Evaluation 实证评估
Robustness Analysis on News Data 新闻数据的稳健性分析
真实相关度分布服从伯努利分布
如公式(19)所示
使用基于位置的点击模型
作为用户行为的模型
选择类似于DCG中增益函数的曝光衰减,如公式(20)所示
其余部分遵循动态排名设置
算法显示
非个性化排名σt
用户根据pt和rt提供反馈ct
仅遵守ct,而不遵守rt
图1-图6所示
图1
朴素算法、D-ULTR和FairCo的NDCG和不公平性如何融合
表明朴素算法随着用户交互次增加,不公平性仍然很高
图2
随着用户数量的增加,相关性估计量的误差
RIPS(d)的全局相关性与朴素使用的估计量之间的绝对差异
图3
大量右倾用户对“影响不公平”的影响
朴素对右倾文章获得的领先优势最为敏感
图4
不同λ值对15个试验进行了平均后的NDCG和影响不公平
图5
无论组比率多少,FairCo都保持NDCG的并降低不公平性
图6
FairCo能够在所有情况下控制不公平现象
Evaluation on Real-World Preference Data 真实世界偏好数据评估
在现实世界中的偏好数据上评估作者方法
选取数据
采用了ML-20M数据集
选择评分最高的所选电影的104位用户
采用技术
矩阵分解模型中的用户嵌入作为用户特征
使用FairCo来学习基于x的排名策略πt(x)序列
使用由D = 50个输入节点组成的隐层神经网络
图7-图10所示
图7
比较电影数据中个性化和非个性化排名
图8
FairCo可以有效控制曝光不公平,与其他方法不同
图9
公平性的提高来自NDCG的减少,但这种减少很小
图10
根据影响公平性,评估优化曝光公平性的算法
Conclusions 结论
确定了在动态学习排序中,有偏反馈导致不公平和次优排序的方式
提出了自适应的公平协同算法
在相关度仍在学习的情况下,强制执行相关度公平约束
Fairco算法易于实现,并且在运行时非常有效
提出的算法打破了动态排名中rich-get-richer现象