导图社区 评分卡模型
本思维导图是最全梳理评分卡模型,特征工程、数据探索、风控指标含义、建模注意重点,一张导图读懂风控建模。
编辑于2022-01-20 15:55:47评分卡模型
相关概念
信用风险参数
PD(probability of default ) 违约概率
LGD(loss given default) 违约条件下的损失率
EAD(Exposure At Default) 违约风险下的敞口暴露
RWA 风险权重资产
EL(Expected Loss) 期望损失
坏样本定义
M3 & M3+ 逾期
债务重组
个人破产
银行主动关户或注销
其他相关违法行为
逾期
M0
最后缴款日的第二天到下一个账单日
M1
M0时段的延续,即在未还款的第二个账单日到第二次账单的最后缴款日之间
M2
M1的延续,即在未还款的第三个账单日到第三次账单的最后缴款日之间
逾期计算
违约
一般指严重的逾期,M3以上
时间窗
观察期
搜集变量、特征的时间窗口,通常3年以内
带时间切片的变量
例如:过去三个月
表现期
搜集是否触发坏样本定义的时间窗口,通常6个月~1年
观察点
模型概述
应用场景
信贷场景
以分数的形式来衡量风险几率的一种手段
是对未来一段时间内违约/逾期/失联概率的预测
有一个明确的(正)区间
通常分数越高越安全
数据驱动或者专家经验
非信贷场景
推荐评分卡
流失评分卡
分类
申请评分卡 A卡Application score card
通过对信贷申请者的资信状况进行评估来预测未来其拖欠或者坏账的概率的模型
贷前,申请环节
预筛选,客户授信
行为评分卡 B卡Behavior score card
根据信贷消费账户历史上表现出来的各种行为来预测该账户未来的信贷表现
贷中,信用卡循环授信、6个月以上信贷产品
风险预警、额度调整
催收评分卡 C卡Collection score card
违约概率评分卡(轻度逾期到重度违约)
损失回收评分卡
催收响应类评分卡
贷后、发生逾期后
深度挖催收策略
常用模型
逻辑回归
组合模型:简单,稳定,可解释,技术成熟,易于监测和部署
缺点:准确度不高
决策树
优点: 对数据质量要求低,易解释
缺点:准确度不高
其他元模型
GBDT
随机森林
组合模型
优点: 准确度高,不易过拟合
缺点:不易解释;部署困难;计算量大
FICO模型
最常用的一种普通信用分,是一个[300,850]区间的分数段。
信用评分达到680分以上,贷款方就可以认为借款人的信用卓著,可以毫不迟疑地同意发放款;
如果借款人的信用评分介于620-680分之间,贷款方就要作进一步的调查核实,采用其它的信用分析工具,作个案处理。
信用评分低于620分,贷款方或者要求借款人增加担保,或者干脆寻找各种理由拒绝贷款;
FICO信用分的计算方法至今未向社会完全公开,但是可以从一些迹象来看出以下的一些评判标准:
偿还历史,大约占总影响因素的35%。
信用账户数,占总影响因素的30%
使用信用的年限,占总影响因素的15%。
新开立的信用账户,占总影响因素的10%。
在使用的信用类型,占总影响因素的10%。
中国执行Fico打分存在的问题
存储数据的缺失或者错误
不适用于对企业信贷的分析
不适用于对个人(或准确的说是小微企业,以个人名义借款,如淘宝店主)借款用于扩大生产的情况
数据预处理
行为评分卡的常用特征
目标
是贷款产品用户(以下简称用户)在放贷后、产品期限结束之前的某段时间(即表现期)内违约或逾期风险
模型参数
也称为特征,主要是用户的帐户在违约或逾期之前一段时间(即观察期)的某些行为特点
适用产品
分期付款,如房贷、车贷、装修贷等
循环授信,如信用卡、某些纯信用类现金贷
时间切片
定义:两个时刻间的跨度
动态的时间用静态的维度特征去刻画
例: 观察日期之前30天内信用卡帐户的总消费额
基于时间切片的衍生
观察日期之前180天内,平均每月(30天)的逾期次数
常用的时间切片
周,月,季度,半年,1年,1年半,2年
时间切片的选择
不能太短:丢失信息
不能太长:保证大多数样本都能覆盖到
还款率
与还款行为有关的变量。还款行为由用户的还款能力与还款意愿决定。还款能力强、还款意愿高的客户,发生违约的可能性较小。通常情况下还受到(上)月末欠款余额有关。因此在定义还款行为时,需要将还款额转换成还款率:
本月还款率=本月还款额/上月末总欠款额
近半年最大(最小)的月还款率
近半年,平均月还款率
额度使用率
关于授信额度使用情况的特征。使用额度较多的帐户,未来还款压力较大,相对易引发违约。同时使用额度也收到授信总额的影响,需要将使用额度转换成使用率
额度使用率=本月使用额度/授信总额度
近半年最大(最小)额度使用率
近半年,平均额度使用率
逾期类型
定义:关于M0,M1,M2状态特征。较高的逾期状态容易导致较大的违约概率。 注:逾期特征可以用在违约模型中,但是逾期模型不可以使用该特征。
近半年最大逾期状态
近半年的M1,M2,M3次数
交易类型
定义:反应客户借贷交易消费行为。(信用卡)
国外使用、提现、线上消费等分类特征
可以从不同维度进行分类,如购买产品类型、消费地点等
特征分箱
概念
定义
将连续变量离散化,将分类变量合并减少分类
重要性
稳定性,避免特征中无意义的波动对评分带来的波动
健壮性,避免了极端值的影响
优势
可以将缺失值作为独立的一个箱带入模型中
将所有变量变换到相似的尺度上
缺点
增加计算量
分箱后要用合适的编码(不能使用1,2,3这样进行编码)
方法
有监督
目的:箱与箱之间差异大,箱内差异较小;有相似行为的放在一下,差异行为的分开;让分箱后的组别分布差异最大化
Best-KS
概述
采用分裂的方法
应用在2分类情形
分箱方法
连续变量
1、排序2、计算每一点的KS值3、选取最大的KS值的点作为分割点4、重复2-3步骤
分类变量
1、用bad rate 进行编码2、依据连续变量方式分箱
停止条件
1、最小箱占比低于设定阈值(常用0.05)2、下一步分箱,对应的箱中的Y类别全是0或13、下一步分箱,bad rate不单调
参考文献
https://blog.csdn.net/hxcaifly/article/details/84593770
ChiMerge 卡方分布
概述
采用合并的方法
可以应用在multi-class情形
分箱方法
1、预先设置一个卡方的阈值2、初始化:根据要离散的属性对实例进行排序,每个实例属于一个区间3、合并区间:计算每一对相邻区间的卡方值,将卡方值最小的一对区间合并
阈值的确定
根据显著性水平和自由度得到卡方值
自由度比类别数量小1
例如,有3类,自由度为2,则90%置信度(10%显著性水平)下,卡方的值为4.6。
含义:类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6,这样,大于阈值的卡方值就说明属性和类不是相互独立的,不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的区间数量少、区间大。
注意
ChiMerge算法推荐使用0.90、0.95、0.99置信度,最大区间数取10到15之间.
也可以不考虑卡方阈值,此时可以考虑最小区间数或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间。
对于类别型变量,需要分箱时需要按照某种方式进行排序
参考文献
https://blog.csdn.net/hxcaifly/article/details/80203663
无监督
等频
每个区间样本大致相等,可用分位数
等距
(max-min)/n,每组样本数量可能不同
聚类
注意
连续变量
分箱必须覆盖所有训练样本外可能存在的值,上下应该是开区间
?检查分箱后的bad rate单调性;倘若不满足,需要进行相邻两箱的合并,直到bad rate单调为止
一般分为5箱
特殊值,要单独分箱,如还款率为负数(可能是客户多还了)
分类变量
当类别数较少时,原则上不需要分箱
当某个或者几个初始类别的bad rate为0时,需要和最小的非0的bad rate的箱进行合并
当该变量可以完全区分目标变量时,需要认真检查该变量的合理性
woe编码
WOE(weight of evidence, 证据权重):一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值
优势
将特征的值规范到相近的尺度上(经验上讲,WOE的绝对值波动范围在0.1~3之间)
具有业务含义
符号与好样本比例相关
正值:组内的正样本较多
负值:组内的负样本较多
如果使用回归模型,则与系数相关
缺点
需要每箱中同时包含好、坏两个类别
计算方法
参考文献
https://blog.csdn.net/kevin7658/article/details/50780391
特征信息度IV(Information Value)
定义
用来筛选变量,衡量特征包含预测变量浓度的一种指标
IV = (1 - 2) * log(1/2)= (1 - 2) * WOE1、2代表某分箱中好、坏样本占全体好、坏样本的比例
WOE(1/2) :衡量两类样本分布的差异性
(1-2):衡量差异的重要性(差异大小)
作用
是一个非负指标
高IV表示该特征和目标变量的关联度高
目标变量只能是二分类
特征分箱越细,IV越高,过高的IV,可能有潜在的风险。如用ID去分箱
常用的阈值
<=0.02: 没有预测性,不可用
0.02 to 0.1: 弱预测性
0.1 to 0.2: 有一定的预测性
0.2 +: 高预测性
计算方法
变量分析
单变量分析
用IV值进行检查 超过02~0.8时
连续变量bad rate的单调性
单一区间样本占比不易过高,占比过高的变量可以去掉
多变量分析
变量的两两相关性
当相关性高时,只能保留一个
可以选择IV高的
可以选择分箱均衡的
可以预估变量重要性,继而选择重要性较高的。例如,借助于随机森林或GBDT对特征重要性进行排序
WOE相关性矩阵
多重共线性
多个变量之间存在现象关系
VIF 方差膨胀因子:因子独立性检验
一般 VIF < 10
逐个变量检查
PCA 主成分分析
可以消除多重共线性
逻辑回归不建议使用该方法
只是降维,没有剔除变量
降低了模型的可解释性
模型建立(行为评分卡)
方法
线性回归
自变量针对系数是线性
优点:形式简单
缺点:P无界
逻辑回归 Logistic Regression, LR
特点:1、x取值可正负无穷;2、P值取值(0,1)3、f(x)处处可导
变量挑选
作用和目的
剔除掉跟目标变量不太相关的特征
消除多重共线性的影响
增加解释性
方法
LASSO
Least absolute shrinkage and selection operator,对回归模型特征的压缩估计
在损失函数中增加模型参数的L1正则约束,一阶范数,绝对值求合
逐步回归法
向前挑选
1、初始化时模型里没有特征2、每次挑选“最好”的变量放到模型里,评估模型性能的改善3、重复(2)直到模型性能不能进一步提升
向后挑选
1、初始化时把所有特征放到模型里2、每次剔除“最差”的变量,该变量的剔除使得模型效果的变化最不显著;评估模型性能的改善3、重复(2)直到没有变量被剔除后,模型效果的变化不显著
双向挑选
向前向后法的结合
随机森林法
GBDT
Xgboost
从模型到分数
子主题
Base Point: 基准分,无实际意义
PDO:Point-to-double odds
Score: 行为评分,正数,与违约风险负相关
评分卡刻度
https://www.cnblogs.com/shaocf/articles/9147135.html
催收评分卡
模型定义
背景
业务分析
客户逾期情况
逾期次数
逾期天数
逾期90+
子主题
表现期
表现客户贷款行为的期限,需要能够充分暴露客户的风险情况
一般会使用ventage
观察点
目标客户
坏客户
定义
排除规则
好客户
定义
筛选规则
观察期
评估指标
评价、监控
评估标准
预测能力
区分能力
排序能力
稳定性
AR(Accuracy Ratio)
KS(Kolmogorov-Smirnov)
衡量分数区分能力的指标,同样需要知道样本在表现期的违约状态。取值位于-1~1之间
用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距 。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。
把样本按变量某种属性(例如数值,或者其他某种指定的方式)进行排序,X轴是总样本累积比例,Y轴是累积bad/good样本分别占总的bad/good样本的比例,两条曲线在Y轴方向上的相差最大值即KS。
KS曲线是两条线,其横轴是阈值,纵轴是TPR(上面那条)与FPR(下面那条)的值,值范围[0,1] 。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值
参考文献
https://blog.csdn.net/sinat_30316741/article/details/80018932
PSI(Population Stability Index)
衡量两个时间点,模型稳定性的指标
与Y的好坏无关、与人群无关
PSI越大说明分布随着时间变化越大
模型调优
触发条件
监控结果不满足要求:连续3个月的KS、AR低于30%,PSI高于25%
产品发生变化:额度提高,周期提高,利率降低
人群发生变化:准入政策发生变化
其他宏观因素发生变化
特征层面的调整
舍弃或者新增特征
例如:舍弃“过去6个月的平均还款率”
调整特征计算方法或者分箱方法
例如:对年龄进行重新分箱
调整的原则
当变量的PSI显著升高,或者IV显著降低时,需要做调整
分数层面的调整
根据新的样本和(或)调整后的特征,重新进行模型训练,估计模型参数
新模型的KS、AR等指标不低于原有模型以及30%的标准
PSI不高于原有模型以及25%的标准
模型部署
PMML
变量应用
问题
数据来源单一
很容易造假
芝麻信用分
购物分类
家居建材
床上用品
装修材料
评论卖家
余额宝
有沉淀资金
有资金转账
只有来自阿里巴巴的数据
覆盖存在局限
竞争关系数据共享
跨设备识别一个人
同一设备识别不同用户
欺诈风险
开始就是恶意的
身份准确识别
实名:与公安系统核实身份证姓名
准实名:电话,邮箱地址等
匿名:qq等
欺诈风险防范规则举例
同一设备在一段时间内多次申请贷款,存在欺诈嫌疑
同一设备在一段时间内在多家机构申请贷款,存在欺诈嫌疑
申请人在一段时间内更换过多个手机号或地址,存在欺诈嫌疑
申请人填写地址与实际居住地址差距非常远,存在欺诈嫌疑
大数据反欺诈
特殊名单核查
黑名单
白名单
多次申请核查
多头借贷
地址信息核对
手机实名验证
移动设备核查
手机
sim
设备反欺诈
共债
银行是否有贷款
小贷公司是否有贷款
借款次数
位置
身份证、手机号、设备号
信用风险
开始无恶意,后期还款能力问题和还款意愿问题
三、四线城市花在游戏、娱乐、动漫上的钱比较多,逾期较高
关注管理财经类图书的人,逾期较低
做过一次商务舱和坐飞机较多的,逾期较低
pos贷款
流水
商户户主信息
关键刷卡人信息
与户主的关系
地理位置
刷卡频率
刷卡金额
不良资产管理
催收
内催
外包
证券化
如何定价
地域不匹配
金额不匹配
额度低,没人愿意做
失联修复
找回手机号
其他联系人
失联预警
借口识别
失联画像