导图社区 Controlling Fairness and Bias in Dynamic Learning-to-Ran

Controlling Fairness and Bias in Dynamic Learning-to-Ran

机器学习公平性研究Controlling Fairness and Bias in Dynamic Learning-to-Ran

编辑于2023-08-01 16:40:27 广东

真悲剧少年

他的近期作品查看更多>>

A Survey on Bias and Fairness
A Survey on Bias and Fairness in Machine Learning 机器学习中公平性和偏见的研究综述
Web安全攻防：渗透测试实战指南
网络空间安全中Web安全方向的实例，主要为服务器的安全，如防范IP、域名、SQL数据记录、XXS等信息的泄露或攻击
现代密码学
现代密码学的相关知识，内容有流密码、分组密码体制、公钥密码、密钥分配与密钥管理、网络加密与认证、可证明安全、密码协议、数字签名和认证协议、消息认证和哈希函数。

Controlling Fairness and Bias in Dynamic Learning-to-Ran

社区模板帮助中心，点此进入>>

真悲剧少年

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 33.7k
- 905
- 2.4k
- 389
MindMaster
安全教育的重要性
- 6.5k
- 853
- 96
- 18
issen
组织架构-单商户商城webAPP 思维导图。
- 14.6k
- 3
- 184
- 10
Kacyun
个人日常活动安排思维导图
- 7.2k
- 0
- 78
- 0
少儿栏目外景策划波波老师
域控上线
- 1.6k
- 162
- 11
- 4
jackrao
西游记主要人物性格分析
- 15.2k
- 1.3k
- 635
- 105
issen
17种头脑风暴法
- 193.4k
- 3.8k
- 11.6k
- 3.9k
MindMaster
python思维导图
- 5.4k
- 522
- 242
- 7
(*^▽^*)
css
- 1.2k
- 1
- 43
- 3
A张舫
CSS
- 3.2k
- 261
- 188
- 33
journey

Controlling Fairness and Bias in Dynamic Learning-to-Rank 在动态学习排名中控制公平和偏见

Abstract 摘要

排名是许多在线平台中用户与商品(例如新闻)进行匹配的主要界面

用户从排名中获取效用

排名决定效用

对用户的近视优化程序对项目提供者不公平

提出等级学习的方法

用于对项目组实施基于绩效的公平保证

提出学习算法

确保

摊销组公平性的概念

从隐式反馈数据中学习排名函数

采用控制器的形式

集成无偏估计量

公正性

实用性

在有更多数据可用时进行动态自适应

严格的理论基础和收敛性保证

凭经验发现，具有很高的实用性和鲁棒性

CCS

信息系统学习排名

关键字

排行；学习排名；公平；偏压；选择偏见；接触

Introduction 介绍

动态排名学习(LTR)

排名功能根据用户提供的反馈动态调整

无所不在

新闻提要排名

适应产品正面评论数

电影推荐系统

学习和预测动态地交织在一起

回溯反馈会影响未来的排名

动态LTR系统存在两大问题

排名系统通过其呈现的排名引起偏差

排名靠前更可能反馈，然后影响排名

排名系统是项目获得曝光量的仲裁者

曝光量影响提供者

观点:新闻的意识形态

经济收益:销售收入

问题导致

经济差异、不公平和两极分化

提出动态LTR算法(FairCo)

执行可配置的曝光分配方案，并解决rich-get-richer动态问题

与现有公平LTR算法不同

FairCo解决了学习问题的动态性质

系统也没有偏差和公平

即使项目的相关性和优点在学习中

方法的核心

基于绩效的曝光分配标准

标准在学习过程中摊销

标准的执行视为控制问题

派生出一个P-控制器

优化曝光的公平性和排名质量

关键组成部分

准确评估绩效(即相关性)能力

新的无偏基数相关性估计量

用作公平性的公正估计

用作排名标准

Motivation 动机

平台首页新闻的排名显示

为动态LTR问题的说明性示例

对文章进行排名

使用朴素算法来学习排名

先以随机顺序为用户展示文章

观察用户阅读，并为文章增加计数器C(d)

根据后面用户的阅读量更新计数器

朴素算法存在两大缺陷

选择C(d)为文章的平均相关性估计

C(d)不是一致估计量

即使有无数用户反馈

C(d)不反映想阅读文章用户的真实数量

排名策略本身

会造成不公平的根源

即使准确地知道文章的真实平均相关性

文章结果呈不同比例

尽管文章具有相似优点(即相关性)

缺陷评价

不受欢迎

带来不希望的后果

偏倚的估计导致排名质量下降

鼓励两极分化

缺陷不仅新闻独有

加剧现有不公平现象(男女求职者)

鼓励垄断，并使一些卖方退出市场

动态LTR算法应满足需求

无偏性

算法不应受到rich-get-richer影响

公平性

算法应强制公平分配曝光量

根据优缺点(如相关性)

作者开发了替代算法

第4节介绍动态学习排名设置

第5节基于公平性的形式化摊销概念

说明了优点本身

在学习过程的开始是未知的

仅在整个学习过程中才被学习

第6节解决偏差问题

提供消除显示偏差的估计器

针对全局和个性化排名策略

第7节提出基于控制的算法

旨在优化排名质量

动态实施公平性

Related Work 相关工作

排名算法

构成了许多在线系统的核心

搜索引擎

推荐系统

新闻提要

在线投票

研究控制推荐和rich-get-richer，通过

探索优化效用角度

确保此类系统的公平性

朴素排名缺点

政治两极分化

错误信息

暴露的不公平分配

马太效应偏见

作者开发出新方法

在动态环境中

减轻偏见和不公平现象

方法

将排名问题视为用户和物品的双向市场

物品从排名系统中获得效用

机器学习方法

背景

人们关注机器学习算法公平问题

人们提出几种公平性定义

范围

二进制分类设置中

推荐和信息检索的排名领域中

定义

曝光公平性

摊销注意力公平

应用于动态设置中

信息检索

人们长期以来根据有偏向的点击数据进行排名

记录的点击数据存在偏差

反馈不完整且呈现方式有偏差

存在基于偏好的方法

点击模型

随机干预

领域新方法

对反馈数据进行反偏，使用

因果推理

缺失数据分析

作者采用了这种方法

将其扩展到动态排名设置

并在第6节中提出新的无偏回归目标

与传统算法有关

实施基于绩效的公平性约束

需要明确评估与用户的相关性

以相关性作为绩效的衡量标准

必须进行探索性干预以确保收敛

针对单击模型假设或存在文档功能设计

主要区别

不考虑通过显式干预进行探索，而只是利用用户驱动的探索。

也可以将显式探索合并到我们的算法中

以提高我们方法的收敛速度

Dynamic Learning-to-Rank 动态学习排名

正式定义动态LTR问题

对传入的请求进行排序，要求为公式1

每个请求都包含

描述用户信息需求的特征向量

对系统可见

用户的真实相关性评级向量

被隐藏

系统从用户那收到反馈向量ct

采用多种形式

不必是二进制

收到反馈ct后，动态LTR算法A会更新排名策略并生成策略πt+ 1

Partial and Biased Feedback 部分和有偏见的反馈

动态LTR的关键挑战

反馈ct仅对用户提供有效反馈

rt包含用户感兴趣的完整信息

用户收集rt信息(et(d)= 1)

无法观察检查向量的事实

反馈值ct(d)=0

缺乏检查(et(d)= 0)

否定反馈(rt(d)= 0)

排名低用户更可能看排名高项目

如公式3所示

多数点击模型可以采用这种形式

作者仅使用基于位置的模型（PBM）

假定检验边际概率pt(d)仅取决于等级(d|σ)

Evaluating Ranking Performance 评估排名表现

衡量排名策略的质量

通过对用户的效用

排名σ的效用U(σ|r)定义为项目相关性的函数

常用的效用度量

DCG

NDCG

由最佳排名的DCG规范化

如公式4所示

Optimizing Ranking Performance 优化排名效果

收敛最大化效用的策略

排名策略的空间是指数级的

最大化问题在计算上具有挑战性

但可以基于排序的策略，如公式5所示

公式6，对于IR(如DCG)中几乎所有U(σ|r)都是最优

通过公式7，得出全球排名

作者设计R(d|x)和R(d)的无偏一致估计量

在第6节中展示

使用因果推断和缺失数据分析

估计量只需要观察到反馈量

Fairness in Dynamic LTR 动态LTR中的公平性

作者将基于绩效的公平性扩展到动态LTR设置中

排名策略在项目之间分配的关键稀缺资源是曝光

采用基于组的公平方法，按组汇总曝光，如公式8所示

组受法律保护的组(如性别、种族)

作者将项目优劣定义为预期的平均收益率(d)，再按组汇总，如公式9所示

作者扩展了治疗差异准则所述的方法，如公式10所示

用于动态排名问题

使用公平摊销概念

基于曝光的公平性差异表示

可通过使用差异的替代定义，来实施除比例之外的分配策略，如公式11所示

将差异保持在接近零的水平，控制分配曝光以使影响与相关性成正比，如公式12所示

每组商品的曝光量与其相关性成正比

差距离零越远，对公平的侵犯就越大

在第7节中，作者将得出一个控制器，将这种曝光和影响视差驱动为零

Unbiased estimators 无偏估计量

Estimating the Position Bias 估计位置偏差

位置偏向模型只是作者动态LTR算法的输入

已存在估计位置偏向模型

点击模型

概率pt(d)仅取决于项目在σ中的等级

倾向模型

基于神经网络

捕获某些用户进一步探索某些查询

从显式和隐式交换干预中估计位置的概率

Estimating Conditional Relevances 估计条件相关性

Lr(w)

如公式(13)所示

使用未观察的真实相关性(r1,...,rτ)

评估器Lc(w)

如公式(14)所示

通过训练一个神经网络来进行学习

使用点击和位置倾向来形成一个平方损失的无偏估计量

观察到真正相关度是代替位置偏差点击时

使用评估器估计公平排名的条件相关性

并对其进行保护和评估结果

在真实世界的数据集上测试Fairco算法的有效性

Estimating Average Relevances 估计平均相关性

关键是在Fairco算法中定义误差项时需要平均相关性

R(d)

文档的无偏估计量

无偏意味着IPS估计量收敛到文档的真实关联概率值

ct(d)

在t时刻d上的点击

Pt(d)

d位置的位置偏差

Dynamically controlling Fairness 动态控制公平

Dτ

平均差距

Dτ= 0实现了最佳公平性，因此作者试图使Dτ最小化

Fairco

errτ(d)

误差项

根据修改后的相关度得分来寻找文档

如公式(17)所示

分数

排名

采取比例控制器或P控制器的形式保护

是线性反馈控制系统

校正与误差成比例

解出Merit(G)的估计量的收敛性

如公式(18)所示

从公平交易量的收敛中

Merit(G)已经接近所有G∈G的Merit(G)

如果过去Gi曝光不足，则将Gi排在Gj之前会减少差异

Empirical Evaluation 实证评估

Robustness Analysis on News Data 新闻数据的稳健性分析

真实相关度分布服从伯努利分布

如公式(19)所示

使用基于位置的点击模型

作为用户行为的模型

选择类似于DCG中增益函数的曝光衰减，如公式(20)所示

其余部分遵循动态排名设置

算法显示

非个性化排名σt

用户根据pt和rt提供反馈ct

仅遵守ct，而不遵守rt

图1-图6所示

图1

朴素算法、D-ULTR和FairCo的NDCG和不公平性如何融合

表明朴素算法随着用户交互次增加，不公平性仍然很高

图2

随着用户数量的增加，相关性估计量的误差

RIPS(d)的全局相关性与朴素使用的估计量之间的绝对差异

图3

大量右倾用户对“影响不公平”的影响

朴素对右倾文章获得的领先优势最为敏感

图4

不同λ值对15个试验进行了平均后的NDCG和影响不公平

图5

无论组比率多少，FairCo都保持NDCG的并降低不公平性

图6

FairCo能够在所有情况下控制不公平现象

Evaluation on Real-World Preference Data 真实世界偏好数据评估

在现实世界中的偏好数据上评估作者方法

选取数据

采用了ML-20M数据集

选择评分最高的所选电影的104位用户

采用技术

矩阵分解模型中的用户嵌入作为用户特征

使用FairCo来学习基于x的排名策略πt(x)序列

使用由D = 50个输入节点组成的隐层神经网络

图7-图10所示

图7

比较电影数据中个性化和非个性化排名

图8

FairCo可以有效控制曝光不公平，与其他方法不同

图9

公平性的提高来自NDCG的减少，但这种减少很小

图10

根据影响公平性,评估优化曝光公平性的算法

Conclusions 结论

确定了在动态学习排序中，有偏反馈导致不公平和次优排序的方式

提出了自适应的公平协同算法

在相关度仍在学习的情况下，强制执行相关度公平约束

Fairco算法易于实现，并且在运行时非常有效

提出的算法打破了动态排名中rich-get-richer现象