导图社区 大数据安全对抗技术与反欺诈实战案例
近年来,随着互联网业务流量快速增长,黑产流量也迎来了爆发式增长。从上游的营销推广等场景下的广告流量作弊,到中游的营销活动等场景下的“羊毛党”作弊,再到下游的营销结算等场景下的交易、支付作弊,黑灰产对流量的攻击隐藏在互联网业务的各个环节。从用户角度考虑,流量威胁严重影响到用户的产品使用体验;从企业角度考虑,流量威胁严重影响到企业的口碑和收益,轻则导致企业损失巨大利润,重则导致企业倒闭。无处不在的黑灰产流量威胁问题愈演愈烈,甚至上升成为社会问题,因此流量威胁问题亟待解决。
编辑于2024-10-02 15:04:18这是一篇关于DPIA流程和模板的思维导图,主要内容包括:DPIA模版,DPIA概述和范围,如何执行DPIA,可接受的DPIA标准,DPIA解决什么问题,DPIA执行标准。
本文翻译了GDPR并且添加了解析,深入剖析GDPR的各个方面,可以更好地理解这一法规的重要性,并为企业和个人在数据保护方面提供有益的指导和建议。非常有价值。
这是一篇关于信息安全技术 、数据安全能力成熟度模型Informatio的思维导图,主要内容包括:附 录 C (资料性附录) 能力成熟度等级评估流程和模型使用方法,附 录 B (资料性附录) 能力成熟度等级评估参考方法,DSMM架构,附 录 A(资料性附录) 能力成熟度等级描述与 GP,DSMM-数据安全过程维度,DSMM-安全能力维度。
社区模板帮助中心,点此进入>>
这是一篇关于DPIA流程和模板的思维导图,主要内容包括:DPIA模版,DPIA概述和范围,如何执行DPIA,可接受的DPIA标准,DPIA解决什么问题,DPIA执行标准。
本文翻译了GDPR并且添加了解析,深入剖析GDPR的各个方面,可以更好地理解这一法规的重要性,并为企业和个人在数据保护方面提供有益的指导和建议。非常有价值。
这是一篇关于信息安全技术 、数据安全能力成熟度模型Informatio的思维导图,主要内容包括:附 录 C (资料性附录) 能力成熟度等级评估流程和模型使用方法,附 录 B (资料性附录) 能力成熟度等级评估参考方法,DSMM架构,附 录 A(资料性附录) 能力成熟度等级描述与 GP,DSMM-数据安全过程维度,DSMM-安全能力维度。
大数据安全对抗技术与反欺诈实战案例
基于流量的对抗技术
流量威胁的整体反欺诈体系建设方案
人机验证
验证码设计的一个重要依据是将当前人工智能技术没有解决的问题,应用在验证码的设计上。一方面可以增加黑产对抗的难度,另一方面可以促进人工智能技术的发展。然而,随着人工智能技术的不断发展,黑产对抗技术也随之不断升级,验证码的设计也不断升级,人机验证走上了一条旷日持久的对抗之路。接下来,介绍一下初级对抗阶段的人机验证——字符验证码。
字符验证码
前文阐述的雅虎初代验证码,其实就是最初的字符验证码。随着计算机技术的发展,这种采用简单的扭曲形变字符做验证码的方式逐渐被黑产破解。最初的字符验证码主要是由字母和数字构建的字符串,如果对整个字符串来分类,基于字母和数字的字符串组合形式会有几十万种,黑产分类识别难度大。但是字母和数字加起来一共才 36 种,如果将字符串切割成单个字符来分类识别,那么分类数就会降低好几个数量级,于是字符验证码就很容易被黑产攻破。
● 提高字符验证码被切分成单个字符后的识别难度。常见方案是减少字符间距,增加字符间的粘连甚至使字符部分重叠,如图所示。
● 增加字符验证码中字符元素类别的数量。常见方案是增加中文字符,如图所示。
● 提高字符验证码中去噪的难度。常见方案是增加噪声干扰,如图所示。
● 提高字符验证码中字符定位的难度。常见方案是动态改变字符位置。
在字符验证码时代,从流量安全的整体防御角度,单纯对验证码模式进行升级还不够。因为不管业务方如何升级字符验证码,黑产都能通过反复试探和摸索对抗方式攻破字符验证码。基于历史对抗经验,从一套新的验证码模式出现,到黑产成功破解该验证码模式,再到集成自动化黑产工具流入黑市,整个过程需要一定周期。如果前端对字符验证码的更新快于黑产的破解,就能在很大程度上提高被黑产攻破的门槛。
行为验证码
面对黑产破解技术的革新,亟须一种打破传统字符验证码设计思路的新型验证码,让黑产破解思路失效。于是,基于行为验证方式的新型验证码——行为验证码出现了。行为验证码摒弃了多年来对字符的依赖,采用图像作为验证码载体,为验证码的构建提供了更多可发挥的空间。其中,出现了一种常见的行为验证码——滑块拼图验证码,如图5.6所示。用户在验证码验证过程中,如果滑块被拖动到正确的拼图位置,且移动过程的轨迹符合人类的行为习惯,就可快速通过。相比传统字符验证码,滑块拼图验证码更安全,且对用户更友好。
业务方为了进一步提升行为验证码的安全性,在滑动拼图验证码的基础上,又做了一些变化,出现了点选图形验证码,如图5.7所示。用户在验证码验证过程中,需要按照指定的文字顺序依次点击图中的文字,才能通过验证。相对于滑动拼图验证码,点选图形验证码增加了文字区分的功能和对点击顺序的要求,所以安全性大幅提升。
新型验证码
智能推理验证码,主要融入了人类的逻辑推理以及多维空间的元素辨别能力。用户需要按照提示,基于推理找出答案,并正确点击图中元素,如图所示。此类验证码的优点是安全性更高,缺点是增加了操作难度,用户体验不够友好。智能推理验证码适用于银行等高安全需求的流量威胁场景。
无感验证码是基于用户行为信息、环境信息以及设备指纹等多维度信息,综合进行智能人机识别的新型验证方式,如图所示。无感验证码可以根据用户的风险程度,自动弹出不同难度的二次验证方式,正常用户只需轻点即可通过验证。该类型验证码的优点是安全性高且用户无感知。
风险名单
人机验证只能对明显异常的偏机器人或者自动脚本的流量进行初筛,而对于模拟正常用户的生物行为的流量威胁,人机验证却无能为力。此时,我们可以利用多方风险名单进行风险筛查。
风险名单的设计
从风险等级角度,风险名单可以分为黑名单、灰名单和白名单;从业务场景角度,风险名单可以分为不区分业务场景的通用风险名单和区分具体业务场景的业务风险名单。
黑名单
黑名单是指会对业务明确造成高风险后果的对象的集合。在流量威胁场景下,黑名单可以直接用于拦截或处罚。黑名单主要基于黑产作恶所涉及的有限资源角度来构建,如IP、设备、手机号、账号等维度。
灰名单
灰名单主要是指偏可疑的对象的集合,灰名单中的资源除了黑产会使用,正常用户也会使用。比如虚拟运营商号码,由于其在线获取门槛低和价格低廉而被黑产青睐,主要被用于垃圾注册等场景,但正常用户(如外卖员)也会使用虚拟运营商号码。再比如代理IP,黑产主要使用在批量“薅羊毛”等场景,用于绕过业务方的频控限制,但正常用户(如留学生)也会使用代理IP访问国外网站。所以,对于黑产和正常用户都会使用的可疑资源,若基于业务暂时无法直接判定为恶意,可以先纳入灰名单用于可疑监控,后续结合其他维度进行风险判断。
白名单
白名单是指需要重点保护且明显为白的对象的集合。比如,游戏中通常会把高级玩家、头部主播玩家加入白名单进行重点保护。白名单在流量威胁场景中主要用于保护高质量用户。
从业务场景角度设计
通用风险名单
黑产掌握的资源,大部分是在各业务场景中作恶所共用的。比如黑产常用的秒拨IP主要用于绕过业务频控,没有具体业务指向。因为秒拨IP在广告作弊、垃圾注册、“薅羊毛”等场景都会出现,所以在新业务还没有积累自身的业务风险名单之前,可以引入第三方的通用风险名单,并将其快速部署上线,从而防控风险。通用黑名单的参考范围如表所示。
业务风险名单
仅有通用风险名单并不够完备,可以基于具体业务场景,进一步沉淀积累各业务自身的风险名单。比如在广告作弊场景中,可以积累历史上被检测到的黑设备,形成业务风险名单,用于加强后续防控。业务黑名单的参考范围如表5.5所示。
风险名单的管理
一旦风险名单被设计好并部署上线后,就需要根据具体业务的外网处罚和投诉情况,进行线上实时效果监控。因为风险名单具有时效性,如果不及时对旧的名单数据进行淘汰,可能导致线上误处罚。接下来以手机号维度的风险名单来举例说明。
当黑产掌握的手机黑号被大部分业务检测到并加入黑名单后,一旦被黑产发现这批手机黑号基本失效,就会被放弃使用。而运营商对手机号有严格的管理机制,对于长期未使用的手机号,会先进行回收然后再重新放号,所以重新获得这些黑产使用过的号码的用户可能是正常用户。此时,如果业务方的手机号黑名单没有及时更新、淘汰旧的黑号,就会造成线上误处罚,所以风险名单淘汰机制的建立很有必要。具体可以从两个方面进行设置:一方面设置固定时间窗口,主动淘汰旧的名单数据;另一方面通过监控线上实时投诉率,及时淘汰旧的名单数据。
规则引擎
基础通用规则主要是基于大部分业务都涉及的IP、设备、账号三要素来构建;业务定制规则主要是基于业务自身情况而量身定制。
基础通用规则
黑灰产为了降低成本和提高收益,在流量欺诈过程中,通常会使用黑灰产工具进行批量操作,而批量操作的前提是绕过业务方的频控,例如同一个IP/设备/账号在固定时间内的访问次数不能超过一定次数。基础通用规则主要从三方面构建,即IP、设备和账号,技术方案如图所示。
IP异常检测规则
(1)IP频控策略
黑产为了获利,往往会进行批量操作,例如批量注册、批量抢票等。此时,业务方的防御比较简单,限制IP访问的频率即可,如同一个IP在固定时间内的访问次数不能超过一定次数。
(2)代理IP识别
IP频控策略只能应对技术割裂、工具化程度低的初级黑产手法。当黑产对抗升级后,黑产利用代理IP访问业务,从而隐藏自己的真实IP,一方面能绕过频控策略,另一方面能隐藏自己的真实位置,且代理IP获取成本低廉,所以代理IP成为了黑产常用工具。根据代理IP获取途径的不同,具体的对抗方案如下所示。
● 代理IP黑库方案。对于从互联网上通过爬取、扫描等方式免费获取的代理IP,由于这部分代理IP被共用,且作恶使用次数过多,因此业务方通过收集或者积累代理IP黑库就可以封堵这些代理IP。
● 代理IP协议检测方案。黑产通过代理IP商购买获取的代理IP,由于是代理商通过扫描获得的或者自建的高质量IP,这些IP具有私密、短时和高匿的特点,所以通过简单的代理IP黑库来识别的难度大。针对这一部分代理IP,一种方式是通过构建IDC IP黑库拦截,另一种方式是通过不同类型代理协议(比如HTTP协议)检测其常用端口(比如8080端口),进而识别代理IP。
(3)秒拨IP识别
黑产对抗升级后,代理IP技术升级到了秒拨IP技术。秒拨IP主要是利用家用宽带拨号上网的原理,每次断电重启即可获取新的IP。而黑产通过掌握大量宽带线路资源,利用虚拟技术和云技术将其打包成了云服务,并利用ROS(软路由)对虚拟主机以及宽带资源做统一调配和管理。这种通过云服务交付给黑产用户的其实就是云主机(俗称“秒拨机”)。
大部分代理IP来源于IP可疑池,而秒拨IP来源于正常用户IP池,当黑产使用完毕后,这些秒拨IP会在正常用户中流转,所以区分秒拨IP和正常用户IP会遇到非常大的挑战。但从设备维度来看,秒拨IP会在设备维度上呈现短时间内多IP聚集的现象,因此可以通过设备维度的多IP聚集来识别秒拨IP。
设备异常检测规则
(1)模拟器/改机-假机假用户识别
黑产为了绕过业务方对设备登录账号数的限制,通过伪造假机和使用黑产账号来绕过风控,即假机假用户行为。黑产伪造的假机主要有两类,一类是基于PC使用模拟器虚拟多台设备,另一类是篡改真机的IMEI等参数,达到以假乱真的效果。根据假机类型的不同,具体识别方法有如下两种。
● 模拟器类型识别。对于通过模拟器虚拟设备的伪造方式,主要通过提取模拟器软件的底层特征信息与真机对比,从特征层识别模拟器类型。比如提取机型、CPU等底层特征信息与真机进行对比识别。
● 改机类型识别。目前手机硬件识别码分为两大标准体系,旧体系是IMEI(国际移动设备识别码,International Mobile Equipment Identity),新体系是OAID。IMEI有标准的命名规则,通过对IMEI的分析和校验可以初步识别改机类型,例如基于IMEI自带的第15位CD验证码(由前14位数字进行Luhn算法计算得出),可以实现IMEI合法性校验识别。OAID是各大厂商构建的、去中心化的设备唯一ID,本身没有含义,所以需要通过其他方案来识别改机类型。
(2)群控-真机假用户识别
由于假机假用户行为的痕迹比较明显,容易被识别,所以黑产转而使用真机群控和黑产账号来对抗,即真机假用户行为。其中最典型的就是设备农场,
黑产为了降低成本,设备农场的真机一般是批量购买的廉价旧手机,因此针对设备农场的真机,假机识别方案已失效。业务方可以基于群控软件、廉价旧机型、手机电池状态等特征来综合识别设备农场这类真机假用户行为。
(3)众包设备-真机真用户假动机识别
虽然黑产通过使用真机替代假机,提高了识别难度,但还是存在对抗漏洞。于是黑产使用基于众包的模式,通过众包平台或者兼职群等渠道,将批量任务分发给兼职用户进行操作,然后给这类兼职人群返回一定的金钱,即真机真用户假动机行为,借此来绕过业务方严格的风控机制。众包模式的识别难度较大,目前主要通过检测众包相关的软件使用行为来识别。
账号异常检测规则
(1)基于虚拟运营商卡的异常识别
虚拟运营商卡主要是以170、171、165、167等号段开头的电话卡。这类电话卡的办卡门槛低,线上即可办理,可以在一定程度上绕过实名认证,因而被黑产青睐,批量用于垃圾注册等场景。针对这类黑卡,可以通过黑库规则来对抗。甚至有些平台仅通过手机号前3位号段就可识别,从而直接限制这类黑卡的注册。
(2)基于物联网卡的异常识别
物联网卡是由三大运营商(移动、联通、电信)提供的、基于物联网专网的纯流量卡,物联网卡用来满足智能硬件的联网、管理以及集团公司的移动信息化应用需求,主要是以146、148等号段开头的卡。由于物联网卡的套餐资费比较便宜,因此受到黑产的青睐。针对这类黑卡,大部分平台业务主要通过号段来识别,从而直接限制这类卡注册。
(3)基于海外卡的异常识别
当国内的虚拟运营商卡和物联网卡被业务方封堵后,黑产开始转而使用海外卡进行批量注册。针对这类黑卡,可以通过累积的黑库和海外地理位置的风险程度来综合识别。
(4)基于接码平台卡的异常识别
无论黑卡来源于什么渠道,大多黑卡最终会出现在各大接码平台上,并以付费服务的形式提供给黑产。所以业务方可以监控和收集接码平台的黑号,并搭建出黑号库,进一步实施打击。
业务定制规则
(1)输入自动预处理模块
由业务产生的原始日志字段繁多且格式多样。在输入规则自动生成系统前,需要进行字段裁剪、空值填充和字段取值预处理等数据清洗操作,从而达到输入标准化的目的。
(2)规则自动生成模块
第一步:基于1-gram进行规则维度初筛。
基于输入的标准化格式字段,通过计算单一维度聚集群体的属性值来判断该维度的风险程度。比如计算群体的业务历史黑名单比例、白名单比例、投诉比例等属性值,剔除聚集群体风险比例低的维度,从降维的角度减少后续规则生成过程中的计算量。
第二步:基于n-gram规则进行自动组合。
根据第一步初筛后的维度,基于n-gram进行维度组合,形成n-gram的规则key,然后通过这些规则key聚集用户群体。
(3)规则自动评估模块
基于上述自动生成的规则key,进一步计算聚集到的用户群体的属性值(业务历史黑名单比例、白名单比例、投诉比例等)。然后基于各用户群体属性值的经验阈值,筛选出高可疑群体对应的规则key,将key作为打击规则,将可疑程度较低群体对应的规则key作为监控规则。
(4)规则自动上线模块
基于业务线上系统,通过灰度方式,将自动评估模块筛选出来的恶意规则池中的规则key上线,并进行实时处罚或监控。
(5)规则线上实时监控模块
针对上线的规则key,需进一步构建线上规则淘汰机制,主要从两方面进行,一是设置规则过期的时间窗口,进行主动淘汰;二是构建线上实时监控,对每个处罚规则key的投诉比例进行实时统计,一旦触发投诉比例阈值,就让规则key的处罚失效,然后从恶意规则池中剔除规则key。
异常检测模型
传统统计检验
互联网的流量大数据主要是基于广大用户的访问习惯形成的,所以从整体上来看,正常流量一定是遵循特定分布形式的,而异常流量往往存在背离常理的分布。例如根据正常作息时间来看,用户访问互联网业务的时间集中分布在白天,而凌晨访问的用户很少。如果某个用户的访问时段分布集中在凌晨,而且还伴随其他异常行为,就很可疑了。所以可以基于统计校验来识别异常行为的流量,有如下两种常见统计模型。
1.基于3 Sigma准则识别异常流量
假设某互联网业务场景的访问流量(在访问时间维度)服从正态分布,如图4.7所示,依据分布的特性可知,访问流量的分布关于均值μ对称,分布在区间(μ−σ,μ+σ)内的概率为68.3%,分布在区间(μ−3σ,μ+3σ)内的概率可达99.7%,而访问流量只有0.3%的概率会落在(μ−3σ,μ+3σ)之外,从整体上来说,这是一个小概率事件。所以考虑到访问流量的安全,可以将落在(μ−3σ,μ+3σ)之外的这部分访问流量作为可疑流量进行识别监控,再结合其他业务维度加深识别。
虽然基于3 Sigma方法能从一定程度上识别出可疑流量,但是该方法是以假定业务场景流量服从正态分布为前提的。实际大部分业务场景的流量往往并不严格服从正态分布,而正态分布中的参数μ和σ也对异常值敏感,所以从非正态分布的业务流量中判断出的异常值,实际对异常检出的覆盖有限。针对这个问题,可以用Tukey箱型图法解决。
2. 基于Tukey箱型图法识别异常流量
Tukey箱形图不同于3 Sigma方法,Tukey箱型图法对于业务场景流量的分布没有特殊要求,它主要是基于四分位距(IQR)的思想来构建箱型图。构图方法为:先找出业务场景流量数据中的最大值、最小值、中位数和两个四分位数;接着,连接两个四分位数画出箱体;再将最大值和最小值与箱体相连接,中位数在箱体中间。例如某业务场景访问流量的Tukey箱型图如图5.14所示,其中Q1和Q3分别为该业务场景下访问流量数据的第1个四分位数和第3个四分位数,则四分位距IQR = Q3−Q1,占50%的业务流量数据。此时,若业务流量落在(Q1−1.5×IQR, Q3+1.5×IQR)范围内,则被视为正常流量,在此范围之外则被视为异常流量。
无监督模型
1.基于距离度量的异常检测模型
这类异常检测模型的思想是,在业务流量数据的多维空间,异常流量数据点往往以离群点的方式出现,而正常流量数据点以簇的方式高度聚集,所以可以通过计算每个流量数据点之间的距离来判定异常流量数据点。其中KNN是基于距离度量的异常检测模型的代表算法,使用该算法进行异常检测的过程如下所示。
● 通过计算每个流量数据点的K-近邻平均距离(注:距离计算方式可以是欧几里得距离或者其他度量方式),并与预先设置的距离阈值进行比较,若大于阈值,则判定为异常流量数据点;
● 或者将全部流量数据点的K-近邻平均距离排序,取前N个最大距离的流量数据点,将其判定为异常流量数据点。
此方法的优点是简单易用,缺点是计算流量数据点之间距离的开销大,不适用于海量数据,且异常点识别对参数K的选择很敏感。另外,由于使用全局距离阈值,无法针对不同密度区域细粒度地设置不同的阈值,所以识别异常流量数据点可能会受到密度变化的影响。
2.基于密度的异常检测模型
这类异常检测模型的思想是,在业务流量数据的多维空间,正常流量数据点出现的区域密度高,而异常流量数据点出现的区域密度低,具体表现为稀疏甚至是单个离群点的形式,所以可以通过刻画每个流量数据点所在区域内的密度来进行异常检测。其中DBSCAN是基于密度的异常检测模型的代表算法,使用该算法进行异常检测的过程如下所示。
● 首先,通过检查每个业务流量数据点的邻域来搜索簇,如果当前数据点的邻域包含的邻居数据点数多于预先设置的阈值个数,就创建一个以当前数据点为核心对象的簇。
● 然后,不断迭代和聚集从这些核心对象直接密度可达的其他对象,此过程可能涉及一些密度可达簇的合并。
● 接着,当没有新的点被添加到任何簇时,该过程结束。
● 最后,稀疏区域中未形成簇的点,即被识别为异常流量数据点。
DBSCAN算法的优点是不用预先指定簇数,且可以在发现任意形状的聚类簇的同时,找出异常点。该算法的缺点是当数据量增大时,内存等开销很大。
3.基于降维思想的异常检测模型
虽然上述模型能检测出异常,但是高维特征空间的处理开销很大,尤其是处理海量的业务流量数据时,不得不考虑计算开销。而通过降维方式,将高维特征空间转换到低维特征空间进行处理,可以很好地解决计算开销问题。
这一方面的典型代表就是PCA异常检测模型,其原理如图5.15所示。PCA在做特征值分解之后得到的特征向量反映了原始数据方差变化程度的不同方向,特征值为数据在对应方向上的方差大小。所以最大特征值对应的特征向量为数据方差最大的方向,最小特征值对应的特征向量为数据方差最小的方向。原始数据在不同方向上的方差变化反映了其内在特点。如果单个数据样本与整体数据样本表现出的特点不太一致,例如在某些方向上与其他数据样本偏离较大,可能表示该数据样本是一个异常点。PCA的主要优点是减少高维数据的计算开销,缓解“高维灾难”。
4.基于集成学习思想的异常检测模型
这类异常检测模型的主要代表模型是孤立森林(Isolation Forest)。它的主要思想是,对于正常流量数据点,由于是高度聚集的密集区域,因此需要被切割很多次才可以将每个流量数据点划分开;而异常流量数据点处于稀疏区域,每个数据点很容易被划分开。
孤立森林的异常检测原理和随机森林类似,如图5.16所示,孤立森林是由多棵决策树组成的集成模型。但不同点是,孤立森林在决策树节点分裂过程中,每次随机选择特征和特征分割点来进行划分,不需要信息增益去评估划分结果的好坏,因为孤立森林的目的只是把每个数据点划分到叶子节点。在决策树划分过程中,如果一些流量数据点每次都能很快划分到叶子节点,即这些数据点从根节点到叶子节点的平均划分路径短,那么这些数据点就很可能是异常流量数据点。平均划分路径距离短表示这些数据点远离高密度的正常流量数据点,很容易被区分,所以可以通过计算流量数据点在所有决策树划分路径中的平均长度来检测异常流量数据点。
不同于前面几种算法,由于孤立森林不需要计算距离、密度等指标,所以该算法计算开销小、速度快。
半监督模型
上述模型主要是没有样本情况下的无监督方式,当有样本时,我们又可以进一步升级模型。然而对于流量异常检测场景,异常样本比较难被获取到,尤其是在黑产对抗激烈的情况下,异常样本的数量相对正常白样本的数量更少,此时训练二分类模型比较困难。此问题可以通过半监督机器学习异常检测模型来解决,典型算法有单分类SVM模型和AutoEncoder模型。
1.单分类SVM模型
SVM的思想是在正常流量与异常流量间寻找一个超平面,可以把正常流量和异常流量分开。而单分类SVM是在缺少异常流量样本的情况下,基于一类样本训练得到的超球面,替代了SVM中的超平面,即通过正常流量样本学习到正常流量的球形边界,在边界之内的样本为正常流量,边界之外的样本为异常流量。其中要注意的是,单分类SVM对问题的优化目标进行了改造,与二分类SVM略有差异,但仍然很相似。具体原理如图5.17所示。
单分类SVM模型的优点是不需要异常样本即可训练模型,适用于高维业务流量场景。该模型的缺点是计算核函数时速度慢,不太适合海量业务流量场景。
2.AutoEncoder模型
AutoEncoder模型的算法原理详见4.4.2节。由于编码器和解码器是基于正常业务流量样本训练和构建的,学习到的是正常业务流量样本的范式,所以对于正常业务流量样本可以正常重构还原,而异常业务流量样本在重构过程中误差较大,无法较好地还原,从而可以作为异常样本识别出来。
多模态集成模型
多模态子模型
从黑产作恶的整个行为链条来看,业务流量场景产生的恶意痕迹是多种多样的。例如在批量注册和登录环节,恶意痕迹表现为账号、设备、IP等介质之间的复杂网络关系图谱异常;在活动环节,黑产又会在文本、图片、视频、语音等模态信息中留下恶意痕迹。因此,黑产的恶意痕迹表现形式是以多种模态来呈现的,如果还是基于传统单一模态的思维去检测,就势必会有覆盖盲点。所以,通过多种模态联动集成,产生“1+1>2”的效果,才是黑产对抗方案的发展趋势。
多模态子模型主要有如下4种。
1.关系图谱子模型
在注册或者登录环节,可以基于账号与账号之间、账号与设备之间、账号与IP之间的复杂网络关系图谱,利用标签传播等社区类算法、metapath2vec等节点表示类算法以及GraphSAGE等图神经网络类算法,构建贴合具体业务场景的关系图谱子模型,具体的图神经网络算法将在第7章详细介绍。
2.文本子模型
在黑产活动环节,基于活动过程产生的垃圾评论、黄赌等引流文本或欺诈类文本,可以利用fastText、TextCNN、LSTM、BERT等自然语言处理算法,构建贴合具体业务场景的文本子模型。具体的文本模型算法将在第6章介绍。
3.图像子模型
在黑产活动环节,主要基于活动过程中产生的黄赌类、贷款诈骗类、刷单诈骗类、虚假支付类等图片,利用卷积神经网络等深度学习算法,构建贴合具体业务场景的图像子模型。具体的图像模型算法将在第6章介绍。
4.其他模态子模型
黑产还可能产生视频、语音等形态数据。在合规和脱敏的情况下,也可以构建相应模态子模型。
新型对抗方案
小样本场景问题
在某些业务类型的黑产对抗后期,很难及时捕获到恶意流量痕迹并获取到相应样本,例如游戏外挂在对抗激烈的情况下,会绕过上报机制,从原本有内容上报转变成无明显内容上报。对于有内容上报场景,我们可以通过进程名、模块名等信息来比较容易地获取到样本;对于无内容上报场景,只能获得内核、驱动等偏底层的信息,获取样本困难,仅有投诉举报等少数样本。而机器学习模型只有获取到足够多的样本,才能训练出泛化性较好的模型。因此,可以通过引入迁移学习来解决流量风控中的小样本场景问题。
迁移学习是从已学习的相关任务中转移知识来改进学习的新任务。根据迁移方法的不同,可以分成如下4类。
● 基于样本的迁移(Instance-based TL):通过权重重用源域和目标域的样例而后进行迁移。
● 基于特征的迁移(Feature-based TL):将源域和目标域的特征变换到相同空间。
● 基于模型的迁移(Parameter-based TL):利用源域和目标域的参数共享模型。
● 基于关系的迁移(Relation-based TL):利用源域中的逻辑网络关系进行迁移。
跨平台联防联控问题
1.横向联邦学习
在两个数据集的用户特征重叠部分较多而用户重叠部分较少的情况下,将数据集横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法叫作横向联邦学习。
2.纵向联邦学习
在两个数据集的用户重叠部分较多而用户特征重叠部分较少的情况下,将数据集纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫作纵向联邦学习。
3.联邦迁移学习
在两个数据集的用户与用户特征重叠部分都较少的情况下,不对数据进行切分,可以利用迁移学习来解决数据或标签不足的问题。这种方法叫作联邦迁移学习。