导图社区 大数据安全治理与防范:反欺诈体系建设
这是一篇关于大数据安全治理与防范:反欺诈体系建设的思维导图,主要内容包括:反欺诈运营体系与情报系统,大数据安全对抗技术与反欺诈实战案例,大数据治理与特征工程,产业工具,黑产现状和危害,安全基础。
编辑于2024-11-03 22:10:40大数据安全治理与防范:反欺诈体系建设
安全基础
安全新挑战
● 电信诈骗:通过有计划的欺骗手段,大量骗取平台内其他用户的财产,例如即时通信平台中的交友诈骗、电商平台中的客服退款诈骗、在线会议平台中的仿冒公检法诈骗等。
● 金融欺诈:通过包装资料、设备和账号,有组织、有预谋地套取金融平台的额度,包括规模性的黑产套现、引导普通用户套现等。
● 羊毛刷量:通过技术手段,在互联网平台仿冒真人进行自动化行为,以获取平台利益或扰乱平台秩序,例如大量刷取平台优惠、抢夺门票等稀缺资源。
● 构建违法平台:建立违反法律法规的平台应用,例如开发网络赌博应用、色情应用,建立盗版视频网站、虚拟货币投资平台等。
● 传播违法信息:利用平台用户量大、信息传播便捷的特性,传播涉黄、涉赌、涉诈、涉政、侵权等非法信息,涉及文字、图片、语音、网址、二维码等形式。
● 频繁骚扰用户:通过向用户频繁发送垃圾信息、推广广告、诱导分享链接等信息来达到曝光、引流的目的,常见的手段包括平台群发、短信轰炸、“呼死你”等,这些行为不仅会影响用户使用体验,而且会破坏平台口碑。
● 线上洗钱:黑产会通过发红包、充值话费、虚假购买商品、第三方平台转账等方式,快速转移大量资金,进行线上洗钱。
● 其他欺诈:其他常见的欺诈行为有利用游戏外挂扰乱正常游戏秩序、搭建钓鱼网站骗取用户信息以实施诈骗等。
大数据安全治理架构
● 大数据平台:为了高效地存储和处理海量数据,诞生了许多大数据基础框架,其中最为著名的大数据基础框架当属2003~2006年间由谷歌发布的分布式文件系统GFS、分布式并行计算框架MapReduce、分布式数据库Bigtable等。
● 数据治理:解决了海量数据的存储和处理问题后,还需要应用数据清洗、元数据管理、数据质量管理、特征集市管理等数据治理技术来有效地管理大数据资产,使大数据资产的价值最大化。
● 云服务:除了海量数据离线存储的应用需求,还需要利用镜像、容器等云服务技术来满足海量数据实时访问的应用需求。
● 人工智能:对于大数据中恶意信息检测、复杂恶意模式挖掘的问题,由于数据的规模庞大,完全无法通过专家规则来处理。而人工智能的发展,使得对文本、图像、语音等复杂内容的理解和识别成为可能,也支持通过关系、社群、时序等数据来挖掘黑产信息。
除了上述新兴大数据技术,在完整的大数据安全治理与防范体系中,也包括运营监控体系、情报与态势感知体系等。大数据安全治理架构自下向上可分为大数据平台、数据治理层、风控模型层以及在线服务层,而反欺诈运营体系和情报系统服务于整个治理架构。
黑产现状和危害
电信网络诈骗
方式
特点
营销欺诈
方式
流量
● 社交媒体平台:为了打造“爆款”文章,提高账号影响力,获得广告主青睐,黑产甚至操控舆论刷点赞量、刷粉丝量、刷评论量、刷转发量等。
● 电商:黑产为了提高店铺或商品排名,刷用户好评、刷购买量等。
● 广告行业:由于目前的广告行业会通过点击率、引流注册量等结算费用,因此黑产会为了从广告主手中获取更多收益而刷点击量、刷曝光量等。
● 多媒体平台:投资方或粉丝为了提升视频、音频的排名,或为了从平台方获得更高的版权费,向黑产购买刷量服务以提高视频、音频的榜单排名及口碑等。
薅羊毛
● 通过个人纯手工进行“薅羊毛”的行为。因为这类行为涉案金额少或规模较小,且是真人的行为,所以往往打击难度比较大。
● 利用商家网站或应用,通过外挂程序将“薅羊毛”过程完全自动化。相对个人纯手工而言,往往这种类型的“羊毛党”获得的钱财数额较高。
● 团伙“羊毛党”,通常是组织者利用社交媒体指挥团伙成员“薅羊毛”,呈现出规模化的趋势。经验丰富的“羊毛党”们对互联网平台的各种促销活动和活动规则了如指掌,善于挖掘和利用可以牟利的规则漏洞,但凡出现有利可图的活动,他们便会第一时间蜂拥而至。为了达到目的,“羊毛党”不择手段,甚至会为了规避风险向下游出售技术等。这种类型的“羊毛党”在严重时甚至能直接薅垮一个平台,是平台最迫切打击的对象。
垃圾注册及身份盗用
● 线上借贷行业:黑产通过非法交易个人信息、养账号,有组织、有计划地钻金融机构平台的风控漏洞,伪装成正常人在各个借贷平台上注册账号,向金融机构申请各类贷款,直接造成金融机构的经济损失。
● 社交媒体平台:黑产创建大批社交平台的账号,为下游实施诈骗、引流恶意信息、骚扰用户、刷量作弊、“薅羊毛”等行为提供账号资源。
● 运营商:黑产大批量购买运营商的号码资源,以实施账号注册和诈骗等行为。
● 电商、在线教育等其他平台:在电商、在线教育等平台的营销阶段(例如拉新、裂变等),黑产会利用手中恶意注册的账号资源去获取企业的拉新奖励。
特点
● 产业链成熟:与电信网络诈骗类似,营销欺诈的产业链也趋于成熟,上下游各司其职,利益共享。
● 多业务场景:有利益的地方就会有黑灰产,随着传统行业向互联网转变,多个业务都会涉及营销活动,因此也给了黑产可乘之机。
● 裹挟正常用户:营销欺诈最大的特点也是最难的挑战,就是会裹挟正常用户入局,甚至部分用户本身就是黑灰产产业链最下游的组成部分。比如部分自媒体为了获取广告主更多的曝光费用而购买刷量服务,或某些专业“羊毛党”为了避免被精准打击,会公布一些促销信息,吸引正常用户参与。
● 重资源、重工具:营销欺诈本质上是操控大批的账号完成自动化领券、拉新、点击等操作,因此此类黑灰产对账号资源、挂机设备、自动化脚本等工具有非常强的依赖。
金融欺诈
方式
网络借贷
● 虚假信息欺诈:申请人通过伪造虚假的个人信息、资产信息等方式骗取金融机构贷款。
● 冒用他人信息申请:黑产通过诈骗、返利等手段诱导其他用户申请贷款,并将贷款套现到黑产账户上。
● 团伙骗贷:黑灰产通过伪造身份证件、非法获取他人数据、伪造征信材料、伪造交易数据等手段,有组织、有计划地对一家或多家金融机构实施贷款诈骗。常见的场景包括通过伪造身份信息、征信材料,黑产大规模地对小额贷款公司、银行等金融机构推出的信贷类产品申请贷款,以及通过多个虚假身份申领多张信用卡、伪造交易数据,对传统银行的信用卡进行恶意套现。
网络支付
网络保险
特点
● 产业化:金融欺诈行为已从单人作案发展为团伙作案,即黑产会获取大量的账号进行攻击,以获取欺诈收益。
● 隐蔽化:黑产跨境作案的隐蔽化趋势逐渐递增,黑产常常会利用IP池对身份进行洗牌,使交易链路变得更加复杂,从而令金融机构更加难以识别其中的风险。
● 突发化:黑产利用的身份信息等数据一旦进入征信系统或黑名单就会被立刻作废,因此黑产会尽可能地榨取身份信息的价值。主要方式有两种,一是在短时间内向多家金融机构申请贷款骗贷,二是使用很多账户在同一时间内对银行等金融机构的反欺诈规则漏洞进行大规模突击性攻击,若相关金融机构的风控能力较为薄弱,则极易被攻破。
● 技术专业化:黑产会招募风控人员、专业黑客等技术人员,通过大规模攻击反复测试金融机构的反欺诈规则,一旦找到漏洞,就会立刻利用该漏洞骗取巨额贷款。另外,黑产会引入先进的技术进行欺诈。例如为了冒用身份,在面对线上金融风控的人脸识别时,会使用专业的工具模拟动态人脸进行识别。
其他类型
网络色情
网络赌博
诱导引流
网络洗钱
产业工具
养号工具
猫池
猫池(modem pool)是一种新型网络通信硬件设备。通俗来说,猫池是可以同时让上百个手机卡“活着”并能接收短信、拨号上网的养卡工具。猫池将传统电话信号转换为网络信号,可供上百张手机SIM卡同时运作,具有批量通话、群发短信、远程控制、卡机分离等功能。
黑卡和卡商:不仅包括三大运营商的手机卡,而且包括虚拟运营商的电话卡,还包括物联网卡、境外卡。“卡商”则是指那些拥有大量“黑卡”的用户,他们从传统运营商和虚拟运营商处获取大量手机“黑卡”,利用猫池设备同时插入数十至数百张卡进行运营。这些卡通过接码平台接码,提供给中下游的黑灰产从业者,用于网络刷量、网络诈骗等活动。
接码平台
接码平台,顾名思义是一类用于接收验证码的平台。接码平台使用物联网卡或未经实名认证的手机卡来接收验证码,可以实现批量注册网络账号、绕开账号实名认证、绑定账号、解绑账号等操作,为各类网络犯罪活动提供了极大的便利。从接码平台的功能来看,它作为一个中间平台,上游对接提供各类手机“黑卡”的“卡商”,下游对接批量生产黑账号的“号商”,形成了“手机‘黑卡’-验证码-黑账号”的黑产工具通路。一个接码平台通常有多个上游“卡商”提供手机“黑卡”。具体来说,“卡商”购买猫池及手机“黑卡”后,可以通过API等接口连接到接码平台上,在用手机号码注册电商平台或网站之后,“卡商”就会接收到验证码短信,“卡商”将其打码后传送给接码平台,接码平台再传递给下游用户。接码平台采用批量虚拟手机号接码,破坏了互联网实名制环境,成为黑灰产流量滋生的土壤。
打码平台
与验证码相关的黑产工具还有打码平台,打码平台可以通过自动或人工的方式识别验证码。验证码可以分为短信验证码、图片验证码、问答验证码和语音验证码等,其中最常见的是4~6位的短信验证码。如果接码平台接收到的验证码不是文本形式,就需要打码平台进行配合,返回可用的验证码。
打码平台可以通过图像识别、语音识别等算法进行自动打码。当简单的OCR识别工具和机器学习等方法无法识别验证码时,打码平台会将验证码自动转为人工打码,人工打码本质上是真人众包形式的网赚作恶项目,帮助黑产团伙绕过验证码。许多打码平台会与网赚平台达成合作,在网赚平台开设打码专区,吸引想要通过兼职赚取额外收入的用户,让用户间接参与到黑灰产中。
群控和云控系统
群控是一项成熟的技术,在“薅羊毛”、养号、养群、刷量等黑灰产中都有重要应用。以社交平台的群控养号为例,操控者可以通过群控去批量自动完善多个账号的信息,再通过一键添加好友、批量发送消息等功能提高账号活跃度和权重,达到养号的效果。除了社交账号养号,群控常常打着“自动化营销”的旗号。“营销系统”可以通过群控技术进行刷单和刷量,如刷文章阅读量、刷视频播放量、刷粉丝量和刷订单量等,还可以批量进行群营销,甚至还可以在群营销后卖群,干扰了互联网平台的正常生态。
云控系统与群控系统的主要功能类似,都是批量操控手机运行的工具,但是在技术实现上有较大区别。群控系统受到USB硬件的限制,必须连接计算机和手机,而云控系统部署在云端,管理员可以在任意地点通过服务器下发指令,再由服务器下发到所有手机的客户端上。同时,当控制运行的脚本需要被更新时,云控系统只需要在云上更新脚本,而群控系统则需要在每一台设备上进行脚本卸载和更新。一般来说,相比于群控系统,云控系统可以控制的手机的数量上限会更高。
设备工具
改机工具
改机工具是黑产团伙大规模作恶所依赖的重要工具,通过改机,黑产可以瞬间改变手机的各种信息,批量伪造新设备,从而逃避业务风控策略。改机工具可以修改包括手机品牌、手机型号、手机串号IMEI、IMSI、MEID、IDFA、IDFV、SSID、手机序列号SN码、WiFi的MAC地址、蓝牙地址等设备信息,还可以修改移动网络运营商信息、电话号码、开机时间、root权限、系统版本等信息。改机工具不仅可以维护一套参数,它通常还可以创建多个沙盒环境,用户可以在每个沙盒中自行定义参数,实现一部设备和多套设备环境信息的便携管理。改机工具突破了单台设备注册账号的数量限制,为黑产批量注册、登录、养号提供源源不断的设备资源,极大地降低了黑产团伙在移动端设备上的成本投入。
与软改相对应的改机方式是硬改。硬改技术主要针对Android系统,通过修改操作系统源码,在调用和获取设备信息的函数口处进行替换,并直接修改设备参数,实现手机系统的定制。由于硬改直接修改了设备参数,相较于软改,硬改的稳定性更高,但对开发者的难度也更高。
改机工具的识别一直是风控过程中的热点。由于软改技术仅仅是模拟生成一些设备参数,底层的设备信息并没有发生改变,因此通过检测特定框架(例如Xposed框架)等方式,可以较好地识别出设备是否存在改机行为。此外,软改所需的root权限/越狱环境也较容易被检测出来。相对于软改,硬改技术较难识别,但是通过对设备底层信息进行逻辑合法性校验,也可以在一定程度上发现改机行为。不管是硬改还是软改,结合设备上的账号行为信息都可以看出异常流量的端倪,及时识别出异常设备。
多开软件
多开软件可以在不具备root权限的情况下突破系统限制,在同一台手机上安装多个相同应用,从而实现多个账号间的自由切换。应用多开是一种常见的功能性需求,最初被用于解决生活中多个社交账号同时登录的问题,比如部分人希望在工作和生活中使用不同的账号,此时多开功能可以减少账号切换的时间成本。许多Android手机提供了应用双开功能,在系统应用设置中,可以通过开关来决定是否对特定App进行双开,双开后的手机桌面上会出现相应App的分身图标,可以在分身App中登录不同的账号。
虚拟定位工具
虚拟定位工具是可以帮助用户自定义地理位置的软件工具。虚拟定位工具在黑灰产中有许多应用,例如在“薅羊毛”场景中,平台方有时会对可以参与福利活动的地区进行限制,此时“羊毛党”通过虚拟定位工具可以伪造自身位置,将位置改到目标地区,从而绕过平台的风控规则。虚拟定位工具也常常被用于引流,尤其是在各类短视频、直播中,从业者将自身定位改到视频受众人群较多的位置,并在视频中加入社交账号的水印,从而完成特定地区、特定人群的引流。此外,虚拟定位工具作为伪造设备环境信息的工具之一,也在电信网络诈骗中有所应用,如在“杀猪盘”诈骗中,诈骗人员使用虚拟定位工具将自身定位到上海、深圳等一线城市,将自己伪装成金融或科技精英,增强身份的可信度,进一步骗取受害人的信任。
全息备份
在批量注册账号、“薅羊毛”等场景里,基本的改机功能已经可以满足设备资源方面的需求。然而,在其他更具有业务连续性的场景里,设备环境前后的一致性则是重要的风控对抗点。例如,“号商”批量新注册的各类互联网账号通常不会被直接投入使用,需要先进行一段时间的养号,而在养号过程中还需要还原每个账号注册时的设备环境,将账号伪装成一直在同一设备上使用,从而提升账号的可信度,绕过平台方的风控。当“号商”养号完毕,将账号卖给下游去变现时,也存在设备更换的问题,此时也需要还原初始注册时的设备环境信息,否则可能由于设备异常而无法使用。
全息备份用于解决设备延续性问题,它可以看作是传统改机工具的延续和升级,在设备一键改机的同时生成相应的设备信息字符串参数。下游通过同一改机工具,使用参数信息实现全套信息恢复。全息备份既可以通过参数记录恢复机型参数等设备信息,又可以备份App应用账号和数据,如登录状态、App设置、游戏存档等。当某种设备环境信息被确认为可以绕过平台方时,黑产团伙就可以通过全息备份进行设备“快照”,在短时间内实现快速复用和业务攻击。
IP工具
IP地址(Internet Protocol Address)是指互联网 协议地址,它为互联网上的每一个网络和每一台主机分配一个逻辑地址。由于互联网中所有的网络请求都带有IP地址信息,因此IP地址可以成为访问者的标识之一。在业务流量中,通过对网络请求流水进行分析,可以识别出恶意IP地址并及时进行阻断。与设备风控类似,平台方会对同一IP地址下的账号数、设备数等进行检测,用以过滤机器流量,例如1分钟内同一IP地址的请求不能超过3次。此外,IP地址所含有的位置信息可以用于辅助分析网络请求方的位置,业务方可以根据具体场景对IP地址进行限制,例如网站只允许特定地区的IP地址进行访问。因此,对平台方来说,IP策略是最基础的安全策略之一。
代理IP
在常规网络请求中,本地IP用户会发送请求访问网站服务器,网站再返回数据给用户。代理IP可以理解为网络请求过程的中转站,本地IP用户先访问代理IP,之后再由代理IP访问目标网站。当持续使用不同代理IP进行访问时,可以在不暴露本地IP的情况下绕过部分风控策略。
秒拨IP
用户使用家用宽带拨号上网时,运营商从IP池分配IP地址给用户,断网时回收IP地址,在断线重连时会重新获取一个新的IP地址。秒拨IP利用了家用宽带拨号的原理和运营商IP资源,可以在短时间内不断断线重连,以达到切换IP的目的。在秒拨团伙切换IP地址后,被回收的IP地址随机流转给正常用户进行使用,因此,简单的IP封禁手段容易误伤大量正常用户。
IP魔盒
随着风控策略的升级,新型IP工具层出不穷,如新出现的IP魔盒是一款使用手机卡SIM流量进行IP切换的硬件设备。通过USB与个人主机进行连接,可以在PC端实现4G联网,再配合相关应用驱动,就可进行IP自动化切换。IP魔盒对于SIM卡的选取没有限制,除了支持三大移动运营商的SIM卡,还支持海外SIM卡。IP魔盒实际使用的是运营商移动网络IP池,增加了风控对抗的难度。
自动化脚本工具
按键精灵
按键精灵是一种模拟按键操作的工具,在“薅羊毛”、刷量等领域都有广泛的应用。按键精灵的核心是逻辑脚本,通过执行配置好的脚本,可以完成重复性的批量操作,模拟用户行为,实现作恶目的。按键精灵可以模拟输入、点击、滑动等操作,在计算机和手机上均可使用。在日常生活和办公中,按键精灵可以帮助用户提升效率,节省时间。但由于其便捷性,按键精灵也被黑产团伙广泛应用于刷单和刷量中。
Auto.js
Auto.js是一款无须root权限的JavaScript自动化软件,也是常见的自动化脚本工具之一,根据脚本内容便可以自动执行相关的操作。虽然Auto.js已下架,但仍被黑产广泛应用。先下载Auto.js和目标App,再编写相应脚本,就可以实现作恶的目的。对于社交账号,就可以实现批量自动注册、发帖、点赞、关注、收藏、评论、转发等操作。Auto.js与按键精灵相比,Auto.js可直接指定控件并点击,无须识图找坐标。手机开启“无障碍服务”后,黑产人员可以在PC端进行编写和调试,即可实现自动化运行。
大数据治理与特征工程
大数据平台
计算框架
当下三个经典主流的大数据计算框架分别是Hadoop、Spark和Flink。在这三个计算框架中,最早出现的Hadoop是由其创始人在MapReduce模型的启发下构建出来的。Hadoop主要面向批处理任务,可以用来处理海量数据,目前已经成为许多企业主要的大数据解决方案。而Spark具有比Hadoop更高的执行速度,通过提供许多具有易用性的接口,Spark在机器学习和图计算中被更广泛地应用。与Spark在批处理领域的绝对优势不同,Flink在流处理领域一枝独秀,其性能也远超其他流处理的大数据计算框架。
存储方式
大数据平台的底层数据采用分布式存储的方式进行留存。分布式存储系统将数据分散存储于多台独立设备中,形成统一的资源存储池,可以避免存储读取成为整个系统的性能瓶颈,解决大规模数据在计算存储时的数据可靠性和安全性问题。分布式存储采用可扩展的系统结构,还可以利用多台存储服务器控制负载均衡,在满足业务场景需求的情况下保障了系统的可靠性、可用性和可拓展性。
经典的分布式存储架构主要有采用中间控制节点架构的Hadoop分布式文件系统,以及无中心架构的Ceph、GlusterFS和OpenStack Swift等。此外,从物理存储的角度来看,文件、块、对象存储是三种不同的数据存储格式。总的来说,文件存储具备以文件和文件夹为主的层次结构,块存储一般以大小相同的卷为基本单位,将数据动态划分并存储于其中,对象存储主要应用于元数据,并连接与之关联的数据,从而进行数据管理。
计算模式
从上层数据分析的业务需求角度出发,大数据平台的计算模式可以分为离线计算和实时计算
● 离线计算:将固定的、非变化的所有请求数据输入后,按照计算请求离线计算并产生结果的过程。离线计算描述的主要是和实时计算相对的离线特征,对数据计算的时效性要求不高。
● 实时计算:随着数据量上升和一些以时效性为强需求的场景逐渐增多,离线计算无法满足要求,因此产生了实时计算的概念。实时计算是对计算链路的表达,强调计算特征的实时性,具备快速的计算过程和请求响应速度,从而满足业务的时效性需求。
大数据治理
数据模型
数据模型是整个大数据治理中的关键部分,主要是用数据来更加合理而准确地揭示目标的本质,从而帮助我们更好地解决业务问题。数据模型包含三要素,分别为数据结构、数据操作和数据约束。
● 数据结构:作为数据模型中最重要的部分,主要描述数据所属类型、数据内容以及数据对象之间的关系。数据结构是对整个数据系统的静态描述。
● 数据操作:是数据实例所允许的所有操作的集合,包括增加、删除、修改以及查询等操作。数据操作是对整个数据系统的动态描述。数据操作必须有章可循,这样才能保证数据安全及质量。
● 数据约束:包含数据操作时必须遵循的所有规则。
元数据管理
一般企业的数据来源广泛,不同来源的数据格式不统一,这就给数据使用者造成了比较大的困扰,因此我们就需要数据来描述并管理这些数据。元数据是描述数据的数据,元数据是指数据系统所产生的描述、定义以及规则等数据,主要包含对数据的使用用途、结构信息、格式定义、存储方式等多个方面的说明。例如用于描述上映电影的元数据中其中导演、编剧、主演、类型等数据是描述电影的一套元数据。
数据质量管理
数据质量管理是保证数据质量的重要环节,数据质量问题存在于从数据获取到数据消亡的整个生命周期中,因此需要明确各个阶段的数据质量管理流程及数据质量的度量标准,按照所定义的度量标准进行数据质量检测和规范,并及时进行数据质量治理,从而避免事后回溯,造成业务的损失。
数据生命周期管理
数据作为对事物客观规律的描述,在事物客观规律形成的初期,数据被采集并被用来表达这种规律。但是,随着客观规律发生变化,数据也会逐渐失效,数据生命周期管理可以提高系统效率、大幅度减少数据存储成本,整个管理过程涵盖了数据的产生、加工、使用、失效以及淘汰。
数据生命周期管理需要根据数据的有效时间来对数据进行分类,并对不同有效时间的数据分别管理,设置相应的存储时长、存储方式、存储规则和注意事项。一方面可以保证数据被有效保存,失效的数据能被及时清除;另一方面也可以对存储资源进行有效划分并合理使用,从而避免了资源浪费。
数据安全
数据安全保证数据能被正常地使用。这里有两层含义,第一层含义是在使用数据时数据是有效的,第二层含义是数据不会被非法利用。无论数据是因为何种原因不能被使用,还是被坏人盗用,都会对业务产生巨大的影响,因此数据安全尤其重要。
数据清洗
“原始安全大数据是杂乱无章的”,这句话主要讲的是原始数据存在缺失、重复以及错误等问题。数据清洗会对原始数据进行清理,保障数据的完整性、唯一性、合法性、一致性以及权威性。数据清洗的主要步骤包括缺失值处理、异常值处理以及归一化与标准化。
缺失值处理
由于采集端上报数据出错等机器因素,或者用户填报数据时刻意隐瞒不填写等人为因素,数据采集过程中会出现数据缺失的情况。如何处理数据缺失,主要是从两个思路出发。第一个思路是删除数据,如果强行使用缺失较为严重的数据,就会影响后续模型的判断。删除数据后,数据便不会影响到模型。第二个思路就是填充数据,将数据是否有缺失作为特征或采用多种填充方式来填充数据,避免粗暴地删除数据而漏过检测。缺失值填充的常见方法有固定值填充(如默认为0或者−1来标识缺失),还有基于均值、众数、中位数等统计方法,或者基于KNN、Random Forest等方法进行填充。缺
异常值处理
异常值产生的原因和缺失值产生的原因大同小异,但是异常值的处理和缺失值的处理有明显的不同。缺失值的出现是显而易见的,但是异常值的出现需要先判断异常值是否异常,再进行下一步操作。
特征工程
“数据和特征决定了机器学习 的上限,而模型和算法只是逼近这个上限而已”,这句话充分说明数据和特征的重要性,准确且充分的特征配合简单的算法就能训练出高精度的模型,相反,若特征的质量较差,配合再高深的算法也无济于事。特征工程就是基于相关知识将原始数据处理成特征的过程。本节通过特征提取和构建、特征学习、特征评估与选择三个方面来阐述特征工程。
特征提取和构建
根据学历代码,学历一般分为小学、初中、高中、专科、本科、硕士和博士。学历数据直接使用中文字符是不能被模型所识别的,需要将其构建为学历特征。如表4.6所示,one-hot编码和简单的数字编码可以实现特征构建。one-hot编码的优势在于不用考虑学历之间的关系,先给每个学历单独分配一个唯一的one-hot编码,然后交给算法去学习。数字编码可以通过简单的数据(从1到7)对学历进行编码,使用和理解起来较为简单,且特征本身也被赋予了含义:学历越高,编码数值越大。
特征学习
● 有监督的特征学习
有监督的特征学习是指在特征学习中引入样本信息,借助于样本信息,从原始数据中整合出有效的特征。通过计算TGI指数来查看不同样本的偏好分布,然后从原始数据中提取出TGI指数较高的基础属性来构建特征。
有监督的特征学习在构建特征中借助了样本的信息,所以特征对样本的区分度较好,但同时特征的泛化能力较弱,当线上实际数据发生迁移时,特征对样本的区分能力下降明显。而无监督的特征学习在构建特征的时候只考虑数据本身的规律而不借助样本信息。
● 无监督的特征学习
无监督的特征学习主要强调挖掘数据本身的规律。在实际的业务场景下,时序规律就是一个很明显且很好被挖掘的数据本身的规律。挖掘文本时序规律的算法比较多,其中一个有名的算法是Tomas Mikolov于2013年提出的word2vec(word to vector)。word2vec是一种通过训练浅层神经网络来学习文本表示的算法,采用的模型包含CBOW(Continuous Bag of Words)模型和Skip-gram模型,两种模型的区别主要是在神经网络语言模型的输入和输出的不同,两种模型的目的都是学习词向量表示。其中,CBOW模型使用当前词的上下文词汇作为输入,输出为当前词;Skip-gram模型则与之相反,输入为当前词,输出为当前词周围的上下文词汇。CBOW模型和Skip-gram模型的原理如图所示。
特征评估与选择
在使用多种方式构建了大量的特征后,直接通过这些特征去训练模型是有问题的,一方面训练开销会比较大,另一方面特征太多会产生模型训练的收敛速度慢等问题。所以在训练模型之前,我们需要对特征进行初筛,先过滤掉一些没用的特征,然后在筛选之后的特征上进行模型的训练。
特征选择主要有三类方法,分别为:过滤法、包装法和嵌入法。其中过滤法是对每个特征独立进行评估,这样对于N个特征我们只需要评估N次就可以了。过滤法首先需要去评估每个特征,然后量化每个特征的有效性,再通过量化的值对特征进行排序,最终按照需要截取排序靠前的特征进行建模。过滤法的评估复杂度较低,但是不会考虑特征之间的叠加作用。与过滤法不同,包装法会考虑特征之间的叠加作用。
大数据安全对抗技术与反欺诈实战案例
基于流量的对抗技术
流量威胁的整体反欺诈体系建设方案
人机验证
验证码设计的一个重要依据是将当前人工智能技术没有解决的问题,应用在验证码的设计上。一方面可以增加黑产对抗的难度,另一方面可以促进人工智能技术的发展。然而,随着人工智能技术的不断发展,黑产对抗技术也随之不断升级,验证码的设计也不断升级,人机验证走上了一条旷日持久的对抗之路。接下来,介绍一下初级对抗阶段的人机验证——字符验证码。
字符验证码
前文阐述的雅虎初代验证码,其实就是最初的字符验证码。随着计算机技术的发展,这种采用简单的扭曲形变字符做验证码的方式逐渐被黑产破解。最初的字符验证码主要是由字母和数字构建的字符串,如果对整个字符串来分类,基于字母和数字的字符串组合形式会有几十万种,黑产分类识别难度大。但是字母和数字加起来一共才 36 种,如果将字符串切割成单个字符来分类识别,那么分类数就会降低好几个数量级,于是字符验证码就很容易被黑产攻破。
● 提高字符验证码被切分成单个字符后的识别难度。常见方案是减少字符间距,增加字符间的粘连甚至使字符部分重叠,如图所示。
● 增加字符验证码中字符元素类别的数量。常见方案是增加中文字符,如图所示。
● 提高字符验证码中去噪的难度。常见方案是增加噪声干扰,如图所示。
● 提高字符验证码中字符定位的难度。常见方案是动态改变字符位置。
在字符验证码时代,从流量安全的整体防御角度,单纯对验证码模式进行升级还不够。因为不管业务方如何升级字符验证码,黑产都能通过反复试探和摸索对抗方式攻破字符验证码。基于历史对抗经验,从一套新的验证码模式出现,到黑产成功破解该验证码模式,再到集成自动化黑产工具流入黑市,整个过程需要一定周期。如果前端对字符验证码的更新快于黑产的破解,就能在很大程度上提高被黑产攻破的门槛。
行为验证码
面对黑产破解技术的革新,亟须一种打破传统字符验证码设计思路的新型验证码,让黑产破解思路失效。于是,基于行为验证方式的新型验证码——行为验证码出现了。行为验证码摒弃了多年来对字符的依赖,采用图像作为验证码载体,为验证码的构建提供了更多可发挥的空间。其中,出现了一种常见的行为验证码——滑块拼图验证码,如图5.6所示。用户在验证码验证过程中,如果滑块被拖动到正确的拼图位置,且移动过程的轨迹符合人类的行为习惯,就可快速通过。相比传统字符验证码,滑块拼图验证码更安全,且对用户更友好。
业务方为了进一步提升行为验证码的安全性,在滑动拼图验证码的基础上,又做了一些变化,出现了点选图形验证码,如图5.7所示。用户在验证码验证过程中,需要按照指定的文字顺序依次点击图中的文字,才能通过验证。相对于滑动拼图验证码,点选图形验证码增加了文字区分的功能和对点击顺序的要求,所以安全性大幅提升。
新型验证码
智能推理验证码,主要融入了人类的逻辑推理以及多维空间的元素辨别能力。用户需要按照提示,基于推理找出答案,并正确点击图中元素,如图所示。此类验证码的优点是安全性更高,缺点是增加了操作难度,用户体验不够友好。智能推理验证码适用于银行等高安全需求的流量威胁场景。
无感验证码是基于用户行为信息、环境信息以及设备指纹等多维度信息,综合进行智能人机识别的新型验证方式,如图所示。无感验证码可以根据用户的风险程度,自动弹出不同难度的二次验证方式,正常用户只需轻点即可通过验证。该类型验证码的优点是安全性高且用户无感知。
风险名单
人机验证只能对明显异常的偏机器人或者自动脚本的流量进行初筛,而对于模拟正常用户的生物行为的流量威胁,人机验证却无能为力。此时,我们可以利用多方风险名单进行风险筛查。
风险名单的设计
从风险等级角度,风险名单可以分为黑名单、灰名单和白名单;从业务场景角度,风险名单可以分为不区分业务场景的通用风险名单和区分具体业务场景的业务风险名单。
黑名单
黑名单是指会对业务明确造成高风险后果的对象的集合。在流量威胁场景下,黑名单可以直接用于拦截或处罚。黑名单主要基于黑产作恶所涉及的有限资源角度来构建,如IP、设备、手机号、账号等维度。
灰名单
灰名单主要是指偏可疑的对象的集合,灰名单中的资源除了黑产会使用,正常用户也会使用。比如虚拟运营商号码,由于其在线获取门槛低和价格低廉而被黑产青睐,主要被用于垃圾注册等场景,但正常用户(如外卖员)也会使用虚拟运营商号码。再比如代理IP,黑产主要使用在批量“薅羊毛”等场景,用于绕过业务方的频控限制,但正常用户(如留学生)也会使用代理IP访问国外网站。所以,对于黑产和正常用户都会使用的可疑资源,若基于业务暂时无法直接判定为恶意,可以先纳入灰名单用于可疑监控,后续结合其他维度进行风险判断。
白名单
白名单是指需要重点保护且明显为白的对象的集合。比如,游戏中通常会把高级玩家、头部主播玩家加入白名单进行重点保护。白名单在流量威胁场景中主要用于保护高质量用户。
从业务场景角度设计
通用风险名单
黑产掌握的资源,大部分是在各业务场景中作恶所共用的。比如黑产常用的秒拨IP主要用于绕过业务频控,没有具体业务指向。因为秒拨IP在广告作弊、垃圾注册、“薅羊毛”等场景都会出现,所以在新业务还没有积累自身的业务风险名单之前,可以引入第三方的通用风险名单,并将其快速部署上线,从而防控风险。通用黑名单的参考范围如表所示。
业务风险名单
仅有通用风险名单并不够完备,可以基于具体业务场景,进一步沉淀积累各业务自身的风险名单。比如在广告作弊场景中,可以积累历史上被检测到的黑设备,形成业务风险名单,用于加强后续防控。业务黑名单的参考范围如表5.5所示。
风险名单的管理
一旦风险名单被设计好并部署上线后,就需要根据具体业务的外网处罚和投诉情况,进行线上实时效果监控。因为风险名单具有时效性,如果不及时对旧的名单数据进行淘汰,可能导致线上误处罚。接下来以手机号维度的风险名单来举例说明。
当黑产掌握的手机黑号被大部分业务检测到并加入黑名单后,一旦被黑产发现这批手机黑号基本失效,就会被放弃使用。而运营商对手机号有严格的管理机制,对于长期未使用的手机号,会先进行回收然后再重新放号,所以重新获得这些黑产使用过的号码的用户可能是正常用户。此时,如果业务方的手机号黑名单没有及时更新、淘汰旧的黑号,就会造成线上误处罚,所以风险名单淘汰机制的建立很有必要。具体可以从两个方面进行设置:一方面设置固定时间窗口,主动淘汰旧的名单数据;另一方面通过监控线上实时投诉率,及时淘汰旧的名单数据。
规则引擎
基础通用规则主要是基于大部分业务都涉及的IP、设备、账号三要素来构建;业务定制规则主要是基于业务自身情况而量身定制。
基础通用规则
黑灰产为了降低成本和提高收益,在流量欺诈过程中,通常会使用黑灰产工具进行批量操作,而批量操作的前提是绕过业务方的频控,例如同一个IP/设备/账号在固定时间内的访问次数不能超过一定次数。基础通用规则主要从三方面构建,即IP、设备和账号,技术方案如图所示。
IP异常检测规则
(1)IP频控策略
黑产为了获利,往往会进行批量操作,例如批量注册、批量抢票等。此时,业务方的防御比较简单,限制IP访问的频率即可,如同一个IP在固定时间内的访问次数不能超过一定次数。
(2)代理IP识别
IP频控策略只能应对技术割裂、工具化程度低的初级黑产手法。当黑产对抗升级后,黑产利用代理IP访问业务,从而隐藏自己的真实IP,一方面能绕过频控策略,另一方面能隐藏自己的真实位置,且代理IP获取成本低廉,所以代理IP成为了黑产常用工具。根据代理IP获取途径的不同,具体的对抗方案如下所示。
● 代理IP黑库方案。对于从互联网上通过爬取、扫描等方式免费获取的代理IP,由于这部分代理IP被共用,且作恶使用次数过多,因此业务方通过收集或者积累代理IP黑库就可以封堵这些代理IP。
● 代理IP协议检测方案。黑产通过代理IP商购买获取的代理IP,由于是代理商通过扫描获得的或者自建的高质量IP,这些IP具有私密、短时和高匿的特点,所以通过简单的代理IP黑库来识别的难度大。针对这一部分代理IP,一种方式是通过构建IDC IP黑库拦截,另一种方式是通过不同类型代理协议(比如HTTP协议)检测其常用端口(比如8080端口),进而识别代理IP。
(3)秒拨IP识别
黑产对抗升级后,代理IP技术升级到了秒拨IP技术。秒拨IP主要是利用家用宽带拨号上网的原理,每次断电重启即可获取新的IP。而黑产通过掌握大量宽带线路资源,利用虚拟技术和云技术将其打包成了云服务,并利用ROS(软路由)对虚拟主机以及宽带资源做统一调配和管理。这种通过云服务交付给黑产用户的其实就是云主机(俗称“秒拨机”)。
大部分代理IP来源于IP可疑池,而秒拨IP来源于正常用户IP池,当黑产使用完毕后,这些秒拨IP会在正常用户中流转,所以区分秒拨IP和正常用户IP会遇到非常大的挑战。但从设备维度来看,秒拨IP会在设备维度上呈现短时间内多IP聚集的现象,因此可以通过设备维度的多IP聚集来识别秒拨IP。
设备异常检测规则
(1)模拟器/改机-假机假用户识别
黑产为了绕过业务方对设备登录账号数的限制,通过伪造假机和使用黑产账号来绕过风控,即假机假用户行为。黑产伪造的假机主要有两类,一类是基于PC使用模拟器虚拟多台设备,另一类是篡改真机的IMEI等参数,达到以假乱真的效果。根据假机类型的不同,具体识别方法有如下两种。
● 模拟器类型识别。对于通过模拟器虚拟设备的伪造方式,主要通过提取模拟器软件的底层特征信息与真机对比,从特征层识别模拟器类型。比如提取机型、CPU等底层特征信息与真机进行对比识别。
● 改机类型识别。目前手机硬件识别码分为两大标准体系,旧体系是IMEI(国际移动设备识别码,International Mobile Equipment Identity),新体系是OAID。IMEI有标准的命名规则,通过对IMEI的分析和校验可以初步识别改机类型,例如基于IMEI自带的第15位CD验证码(由前14位数字进行Luhn算法计算得出),可以实现IMEI合法性校验识别。OAID是各大厂商构建的、去中心化的设备唯一ID,本身没有含义,所以需要通过其他方案来识别改机类型。
(2)群控-真机假用户识别
由于假机假用户行为的痕迹比较明显,容易被识别,所以黑产转而使用真机群控和黑产账号来对抗,即真机假用户行为。其中最典型的就是设备农场,
黑产为了降低成本,设备农场的真机一般是批量购买的廉价旧手机,因此针对设备农场的真机,假机识别方案已失效。业务方可以基于群控软件、廉价旧机型、手机电池状态等特征来综合识别设备农场这类真机假用户行为。
(3)众包设备-真机真用户假动机识别
虽然黑产通过使用真机替代假机,提高了识别难度,但还是存在对抗漏洞。于是黑产使用基于众包的模式,通过众包平台或者兼职群等渠道,将批量任务分发给兼职用户进行操作,然后给这类兼职人群返回一定的金钱,即真机真用户假动机行为,借此来绕过业务方严格的风控机制。众包模式的识别难度较大,目前主要通过检测众包相关的软件使用行为来识别。
账号异常检测规则
(1)基于虚拟运营商卡的异常识别
虚拟运营商卡主要是以170、171、165、167等号段开头的电话卡。这类电话卡的办卡门槛低,线上即可办理,可以在一定程度上绕过实名认证,因而被黑产青睐,批量用于垃圾注册等场景。针对这类黑卡,可以通过黑库规则来对抗。甚至有些平台仅通过手机号前3位号段就可识别,从而直接限制这类黑卡的注册。
(2)基于物联网卡的异常识别
物联网卡是由三大运营商(移动、联通、电信)提供的、基于物联网专网的纯流量卡,物联网卡用来满足智能硬件的联网、管理以及集团公司的移动信息化应用需求,主要是以146、148等号段开头的卡。由于物联网卡的套餐资费比较便宜,因此受到黑产的青睐。针对这类黑卡,大部分平台业务主要通过号段来识别,从而直接限制这类卡注册。
(3)基于海外卡的异常识别
当国内的虚拟运营商卡和物联网卡被业务方封堵后,黑产开始转而使用海外卡进行批量注册。针对这类黑卡,可以通过累积的黑库和海外地理位置的风险程度来综合识别。
(4)基于接码平台卡的异常识别
无论黑卡来源于什么渠道,大多黑卡最终会出现在各大接码平台上,并以付费服务的形式提供给黑产。所以业务方可以监控和收集接码平台的黑号,并搭建出黑号库,进一步实施打击。
业务定制规则
(1)输入自动预处理模块
由业务产生的原始日志字段繁多且格式多样。在输入规则自动生成系统前,需要进行字段裁剪、空值填充和字段取值预处理等数据清洗操作,从而达到输入标准化的目的。
(2)规则自动生成模块
第一步:基于1-gram进行规则维度初筛。
基于输入的标准化格式字段,通过计算单一维度聚集群体的属性值来判断该维度的风险程度。比如计算群体的业务历史黑名单比例、白名单比例、投诉比例等属性值,剔除聚集群体风险比例低的维度,从降维的角度减少后续规则生成过程中的计算量。
第二步:基于n-gram规则进行自动组合。
根据第一步初筛后的维度,基于n-gram进行维度组合,形成n-gram的规则key,然后通过这些规则key聚集用户群体。
(3)规则自动评估模块
基于上述自动生成的规则key,进一步计算聚集到的用户群体的属性值(业务历史黑名单比例、白名单比例、投诉比例等)。然后基于各用户群体属性值的经验阈值,筛选出高可疑群体对应的规则key,将key作为打击规则,将可疑程度较低群体对应的规则key作为监控规则。
(4)规则自动上线模块
基于业务线上系统,通过灰度方式,将自动评估模块筛选出来的恶意规则池中的规则key上线,并进行实时处罚或监控。
(5)规则线上实时监控模块
针对上线的规则key,需进一步构建线上规则淘汰机制,主要从两方面进行,一是设置规则过期的时间窗口,进行主动淘汰;二是构建线上实时监控,对每个处罚规则key的投诉比例进行实时统计,一旦触发投诉比例阈值,就让规则key的处罚失效,然后从恶意规则池中剔除规则key。
异常检测模型
传统统计检验
互联网的流量大数据主要是基于广大用户的访问习惯形成的,所以从整体上来看,正常流量一定是遵循特定分布形式的,而异常流量往往存在背离常理的分布。例如根据正常作息时间来看,用户访问互联网业务的时间集中分布在白天,而凌晨访问的用户很少。如果某个用户的访问时段分布集中在凌晨,而且还伴随其他异常行为,就很可疑了。所以可以基于统计校验来识别异常行为的流量,有如下两种常见统计模型。
1.基于3 Sigma准则识别异常流量
假设某互联网业务场景的访问流量(在访问时间维度)服从正态分布,如图4.7所示,依据分布的特性可知,访问流量的分布关于均值μ对称,分布在区间(μ−σ,μ+σ)内的概率为68.3%,分布在区间(μ−3σ,μ+3σ)内的概率可达99.7%,而访问流量只有0.3%的概率会落在(μ−3σ,μ+3σ)之外,从整体上来说,这是一个小概率事件。所以考虑到访问流量的安全,可以将落在(μ−3σ,μ+3σ)之外的这部分访问流量作为可疑流量进行识别监控,再结合其他业务维度加深识别。
虽然基于3 Sigma方法能从一定程度上识别出可疑流量,但是该方法是以假定业务场景流量服从正态分布为前提的。实际大部分业务场景的流量往往并不严格服从正态分布,而正态分布中的参数μ和σ也对异常值敏感,所以从非正态分布的业务流量中判断出的异常值,实际对异常检出的覆盖有限。针对这个问题,可以用Tukey箱型图法解决。
2. 基于Tukey箱型图法识别异常流量
Tukey箱形图不同于3 Sigma方法,Tukey箱型图法对于业务场景流量的分布没有特殊要求,它主要是基于四分位距(IQR)的思想来构建箱型图。构图方法为:先找出业务场景流量数据中的最大值、最小值、中位数和两个四分位数;接着,连接两个四分位数画出箱体;再将最大值和最小值与箱体相连接,中位数在箱体中间。例如某业务场景访问流量的Tukey箱型图如图5.14所示,其中Q1和Q3分别为该业务场景下访问流量数据的第1个四分位数和第3个四分位数,则四分位距IQR = Q3−Q1,占50%的业务流量数据。此时,若业务流量落在(Q1−1.5×IQR, Q3+1.5×IQR)范围内,则被视为正常流量,在此范围之外则被视为异常流量。
无监督模型
1.基于距离度量的异常检测模型
这类异常检测模型的思想是,在业务流量数据的多维空间,异常流量数据点往往以离群点的方式出现,而正常流量数据点以簇的方式高度聚集,所以可以通过计算每个流量数据点之间的距离来判定异常流量数据点。其中KNN是基于距离度量的异常检测模型的代表算法,使用该算法进行异常检测的过程如下所示。
● 通过计算每个流量数据点的K-近邻平均距离(注:距离计算方式可以是欧几里得距离或者其他度量方式),并与预先设置的距离阈值进行比较,若大于阈值,则判定为异常流量数据点;
● 或者将全部流量数据点的K-近邻平均距离排序,取前N个最大距离的流量数据点,将其判定为异常流量数据点。
此方法的优点是简单易用,缺点是计算流量数据点之间距离的开销大,不适用于海量数据,且异常点识别对参数K的选择很敏感。另外,由于使用全局距离阈值,无法针对不同密度区域细粒度地设置不同的阈值,所以识别异常流量数据点可能会受到密度变化的影响。
2.基于密度的异常检测模型
这类异常检测模型的思想是,在业务流量数据的多维空间,正常流量数据点出现的区域密度高,而异常流量数据点出现的区域密度低,具体表现为稀疏甚至是单个离群点的形式,所以可以通过刻画每个流量数据点所在区域内的密度来进行异常检测。其中DBSCAN是基于密度的异常检测模型的代表算法,使用该算法进行异常检测的过程如下所示。
● 首先,通过检查每个业务流量数据点的邻域来搜索簇,如果当前数据点的邻域包含的邻居数据点数多于预先设置的阈值个数,就创建一个以当前数据点为核心对象的簇。
● 然后,不断迭代和聚集从这些核心对象直接密度可达的其他对象,此过程可能涉及一些密度可达簇的合并。
● 接着,当没有新的点被添加到任何簇时,该过程结束。
● 最后,稀疏区域中未形成簇的点,即被识别为异常流量数据点。
DBSCAN算法的优点是不用预先指定簇数,且可以在发现任意形状的聚类簇的同时,找出异常点。该算法的缺点是当数据量增大时,内存等开销很大。
3.基于降维思想的异常检测模型
虽然上述模型能检测出异常,但是高维特征空间的处理开销很大,尤其是处理海量的业务流量数据时,不得不考虑计算开销。而通过降维方式,将高维特征空间转换到低维特征空间进行处理,可以很好地解决计算开销问题。
这一方面的典型代表就是PCA异常检测模型,其原理如图5.15所示。PCA在做特征值分解之后得到的特征向量反映了原始数据方差变化程度的不同方向,特征值为数据在对应方向上的方差大小。所以最大特征值对应的特征向量为数据方差最大的方向,最小特征值对应的特征向量为数据方差最小的方向。原始数据在不同方向上的方差变化反映了其内在特点。如果单个数据样本与整体数据样本表现出的特点不太一致,例如在某些方向上与其他数据样本偏离较大,可能表示该数据样本是一个异常点。PCA的主要优点是减少高维数据的计算开销,缓解“高维灾难”。
4.基于集成学习思想的异常检测模型
这类异常检测模型的主要代表模型是孤立森林(Isolation Forest)。它的主要思想是,对于正常流量数据点,由于是高度聚集的密集区域,因此需要被切割很多次才可以将每个流量数据点划分开;而异常流量数据点处于稀疏区域,每个数据点很容易被划分开。
孤立森林的异常检测原理和随机森林类似,如图5.16所示,孤立森林是由多棵决策树组成的集成模型。但不同点是,孤立森林在决策树节点分裂过程中,每次随机选择特征和特征分割点来进行划分,不需要信息增益去评估划分结果的好坏,因为孤立森林的目的只是把每个数据点划分到叶子节点。在决策树划分过程中,如果一些流量数据点每次都能很快划分到叶子节点,即这些数据点从根节点到叶子节点的平均划分路径短,那么这些数据点就很可能是异常流量数据点。平均划分路径距离短表示这些数据点远离高密度的正常流量数据点,很容易被区分,所以可以通过计算流量数据点在所有决策树划分路径中的平均长度来检测异常流量数据点。
不同于前面几种算法,由于孤立森林不需要计算距离、密度等指标,所以该算法计算开销小、速度快。
半监督模型
上述模型主要是没有样本情况下的无监督方式,当有样本时,我们又可以进一步升级模型。然而对于流量异常检测场景,异常样本比较难被获取到,尤其是在黑产对抗激烈的情况下,异常样本的数量相对正常白样本的数量更少,此时训练二分类模型比较困难。此问题可以通过半监督机器学习异常检测模型来解决,典型算法有单分类SVM模型和AutoEncoder模型。
1.单分类SVM模型
SVM的思想是在正常流量与异常流量间寻找一个超平面,可以把正常流量和异常流量分开。而单分类SVM是在缺少异常流量样本的情况下,基于一类样本训练得到的超球面,替代了SVM中的超平面,即通过正常流量样本学习到正常流量的球形边界,在边界之内的样本为正常流量,边界之外的样本为异常流量。其中要注意的是,单分类SVM对问题的优化目标进行了改造,与二分类SVM略有差异,但仍然很相似。具体原理如图5.17所示。
单分类SVM模型的优点是不需要异常样本即可训练模型,适用于高维业务流量场景。该模型的缺点是计算核函数时速度慢,不太适合海量业务流量场景。
2.AutoEncoder模型
AutoEncoder模型的算法原理详见4.4.2节。由于编码器和解码器是基于正常业务流量样本训练和构建的,学习到的是正常业务流量样本的范式,所以对于正常业务流量样本可以正常重构还原,而异常业务流量样本在重构过程中误差较大,无法较好地还原,从而可以作为异常样本识别出来。
多模态集成模型
多模态子模型
从黑产作恶的整个行为链条来看,业务流量场景产生的恶意痕迹是多种多样的。例如在批量注册和登录环节,恶意痕迹表现为账号、设备、IP等介质之间的复杂网络关系图谱异常;在活动环节,黑产又会在文本、图片、视频、语音等模态信息中留下恶意痕迹。因此,黑产的恶意痕迹表现形式是以多种模态来呈现的,如果还是基于传统单一模态的思维去检测,就势必会有覆盖盲点。所以,通过多种模态联动集成,产生“1+1>2”的效果,才是黑产对抗方案的发展趋势。
多模态子模型主要有如下4种。
1.关系图谱子模型
在注册或者登录环节,可以基于账号与账号之间、账号与设备之间、账号与IP之间的复杂网络关系图谱,利用标签传播等社区类算法、metapath2vec等节点表示类算法以及GraphSAGE等图神经网络类算法,构建贴合具体业务场景的关系图谱子模型,具体的图神经网络算法将在第7章详细介绍。
2.文本子模型
在黑产活动环节,基于活动过程产生的垃圾评论、黄赌等引流文本或欺诈类文本,可以利用fastText、TextCNN、LSTM、BERT等自然语言处理算法,构建贴合具体业务场景的文本子模型。具体的文本模型算法将在第6章介绍。
3.图像子模型
在黑产活动环节,主要基于活动过程中产生的黄赌类、贷款诈骗类、刷单诈骗类、虚假支付类等图片,利用卷积神经网络等深度学习算法,构建贴合具体业务场景的图像子模型。具体的图像模型算法将在第6章介绍。
4.其他模态子模型
黑产还可能产生视频、语音等形态数据。在合规和脱敏的情况下,也可以构建相应模态子模型。
新型对抗方案
小样本场景问题
在某些业务类型的黑产对抗后期,很难及时捕获到恶意流量痕迹并获取到相应样本,例如游戏外挂在对抗激烈的情况下,会绕过上报机制,从原本有内容上报转变成无明显内容上报。对于有内容上报场景,我们可以通过进程名、模块名等信息来比较容易地获取到样本;对于无内容上报场景,只能获得内核、驱动等偏底层的信息,获取样本困难,仅有投诉举报等少数样本。而机器学习模型只有获取到足够多的样本,才能训练出泛化性较好的模型。因此,可以通过引入迁移学习来解决流量风控中的小样本场景问题。
迁移学习是从已学习的相关任务中转移知识来改进学习的新任务。根据迁移方法的不同,可以分成如下4类。
● 基于样本的迁移(Instance-based TL):通过权重重用源域和目标域的样例而后进行迁移。
● 基于特征的迁移(Feature-based TL):将源域和目标域的特征变换到相同空间。
● 基于模型的迁移(Parameter-based TL):利用源域和目标域的参数共享模型。
● 基于关系的迁移(Relation-based TL):利用源域中的逻辑网络关系进行迁移。
跨平台联防联控问题
1.横向联邦学习
在两个数据集的用户特征重叠部分较多而用户重叠部分较少的情况下,将数据集横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法叫作横向联邦学习。
2.纵向联邦学习
在两个数据集的用户重叠部分较多而用户特征重叠部分较少的情况下,将数据集纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫作纵向联邦学习。
3.联邦迁移学习
在两个数据集的用户与用户特征重叠部分都较少的情况下,不对数据进行切分,可以利用迁移学习来解决数据或标签不足的问题。这种方法叫作联邦迁移学习。
基于内容的对抗技术
业务场景与风险
内容风控的数据来源主要分为如下3类。
● 用户生成内容:由用户上传的内容,包括作品、博客、评论等。这些内容由用户控制,很容易被黑产伪装利用,因此存在较大的内容安全风险。
● 第三方传播内容:从第三方引入的内容,例如新闻报道、二维码、外部网站的访问链接、投放的广告内容等。正规平台会针对这部分内容有一定的审核机制,但黑产仍然可以通过劫持篡改、诱导引流等方法,向用户提供恶意内容。对于黑产自身搭建的平台,如赌博平台、色情平台、诈骗平台等,也会借此渠道进行传播,所以内容安全问题也比较严重。
● 应用生成内容:由应用方或服务提供方自行生成的内容,例如启动图像、说明文本、内置地图等。这些内容较为固定且可控,产生恶意信息的概率较小,只需对可能的疏忽进行防范。
从数据来源出发,用户生成内容和第三方传播内容是内容风控的“主战场”。如果从存在风险来看,内容风控的主要风险类别可以分为以下6种。
● 电信诈骗:通过虚假内容误导用户,从而骗取用户的钱财或隐私信息。
● 恶意信息传播:通过多种途径传播恶意信息。
● 非法引流:通过诱导等不正当手段引导用户到非法平台。
● 非法销售:宣传法律法规禁止的物品,或者销售网络禁售的产品。
● 垃圾骚扰:发送和传播大量包含垃圾广告、违规推广信息等骚扰用户的内容。
● 内容侵权:传播侵犯版权、肖像权、知识产权等内容。
还可以根据业务需要对风险类别进行更细致地划分。如果从信息载体来划分,可以分为以下4种。
● 文本:文字是信息交流最基本的形态。文本具有特定的语法结构,可以通过自然语言处理技术理解文本语义或提取摘要,进而构建文本判别模型。同时,黑产对文本也存在替换谐音字、生僻字、变体字、黑话或切换语言等对抗手段。
● 图像:与文本相比,图像包含更多的信息,为用户带来了形状、色彩等感官上的体验。图像可以表达出丰富的内容,这也使得黑产可以基于图像变化出非常多的对抗手段,例如亮度极化、添加特殊纹理、马赛克和图像模糊等。
● 视频:视频是通过每秒连续播放多幅图像来实现的,因此其信息量远大于图像的信息量。相比于图像,视频前后的图像存在语义关联,视频检测模型的复杂度也更高。
● 音频:除特殊的音频信息外,音频更多是作为视频辅助信息出现的。有些黑产将恶意信息拆分放到视频流和音频流中,这时需要结合二者进行综合判断。
标签体系
在建立内容安全模型前,最重要的一步便是建立标签体系。标签体系依赖于安全业务的场景和目标,是后续人工标注的标准和模型训练的依据。在安全业务中,一个合理的标签体系要兼顾实际恶意内容的类型和恶意内容的特性。恶意内容的类型代表了模型识别的目标,恶意内容的特性代表了模型识别的依据。接下来将由浅入深介绍大数据安全治理中与内容安全相关的标签体系。
黑白标签体系
最简单的标签体系就是黑白标签,黑标签代表内容涉及安全违规信息,白标签代表内容正常,这种方式一般适用于只关注内容是否违规,而不关注具体恶意行为的业务。黑白标签体系具有规则简洁明了、搭建快速的特点,这使得在标注审核时内容不容易被误标。在构建模型时,架构设计也更加简单,输出层仅需一个神经元,可以通过输出值来对内容的标签进行判别。这种标签体系一般适用于简单风控需求的业务场景,其输出结果也可以用于复杂风控模型前期的数据筛选。
类别细分体系
不同恶意类型有着不同的表现形式,对用户的危害程度也不一样,在风控业务中,需要根据情况采用不同的对抗手段来应对。例如,在很多图像风控业务场景中,不仅需要确定图像是否恶意,更需要确定恶意图像的恶意类型,以便采取对应措施。在应对赌博和色情类型图像时,需要严格禁止其传播;在应对广告营销类型图像时,则需要限定其传播量,避免对用户造成影响。
多标签体系
虽然类别细分体系可以提供清晰的标签结构,但自上而下的类别细分体系要求标签之间必须是互斥的,某一子类标签必须从属于其父类标签,这使得父类标签之间模糊地带的样本难以被界定。在实际安全业务中,非法内容也会包含多类需要进行表征的恶意信息,此时需要将其分类为多标签,例如引流图像中往往会同时出现赌博和色情元素,但是将其划分到某一个大类都不合适。
多标签体系并不限制恶意内容只能属于某一类别,而是允许使用多个类别对恶意内容进行描述。同时,类别之间的划分也允许有一定程度的重叠,这就赋予了多标签体系更大的自由度。当标签体系要面向不同的安全业务时,多标签体系就可以对标签进行灵活的调整。
文本内容对抗技术
特点
● 对抗激烈:中国的语言和文字博大精深而变化无穷,黑灰产可以通过对违规文本进行变形来规避平台方的打击。由于文本变形具有门槛低、成本低的特点,因此文本对抗异常激烈。
● 高实时性:为了达到迅速曝光恶意内容的目的,黑灰产会在短时间内通过操纵机器、运行脚本的方式迅速地在平台发布恶意文本。为了获得更多的曝光量,黑灰产往往会在高热度或推荐的内容下发布恶意文本。如果平台方不能及时发现并迅速拦截,就会让恶意文本在从发布到被拦截的这段时间内的曝光数迅速增长。
● 高准确率:在与黑产的激烈对抗中,为了防止正常用户被误拦截,平台方对恶意文本的识别与打击就需要非常高的准确率。若不能保证高准确率,错误识别了正常用户发布的正常内容,小则影响用户体验,大则引发社会舆论,会给平台带来被投诉和公关的压力。
对抗架构
● 风险规则模块:风险规则模块主要是为了实现两个目标。一个目标是通过积累的敏感词库、文本特征库、违规样本库、专家规则库等快速打击历史上已出现的违规文本。这种方式的优点是打击效率高,可以保证实时性,不过缺点也很明显,因为违规样本库需要维护,且随着时间的积累,违规样本库的存储空间会递增,文本匹配的时间开销也会增加,并且因为违规样本库中包含历史上已出现的违规样本,因此在对抗较为激烈的场景中,会存在种子失效率高的问题。另一个目标是对风险规则模块筛选出的未知违规及违规类型的可疑数据进行更精准地判定。
● 风险模型模块:风险模型模块是最为核心的模块,同时也是贯穿整个风险识别层的基础模块。该模块主要负责三个功能。一是通过抽取违规样本的文本特征、提取敏感词等方法,向风险规则模块提供新的种子,并通过文本相似度算法等方法匹配违规种子库以达到打击违规样本的目的。二是通过文本聚类模型向风险感知模块输出新型可疑对抗文本。三是通过文本相似度、文本聚类和文本分类等多种方法来判定样本是否违规及违规样本的类型,并依据判定的标签来实现文本内容的分级管理。
● 风险感知模块:风险感知模块主要就是为了能及时监控新出现的违规样本,便于及时预警并补充风险规则模块中的违规样本库,以及监控线上模型和策略的准确率等。
文本预处理
与常规的文本不同的是,随着对抗过程的演进,恶意文本会被黑灰产采用五花八门的对抗方式进行改造,变种后的文本不但变得隐晦,而且携带了大量的噪声,如果不对这些数据进行预处理,后续的文本内容安全模型就会被这些噪声干扰,不能学习到有效的恶意信息。正所谓“数据和特征决定了模型的上限,而模型和算法只是逼近这个上限的方法”,所以只有针对性地对不同类型的黑产对抗方式采用合适的治理方式,才能尽可能地提高数据质量,进而提升模型的上限。下表罗列了部分黑产常用的文本对抗方式。
1.数据清洗
数据清洗针对的是平台方因传输、存储和处理等流程或者系统设计上的问题而产生的数据杂质。数据清洗方法详见4.3节。
2.文本归一化
文本归一化的目的是处理黑产对抗后的变异文本,将随机出现的组合文本、无意义符号等各种文本还原成更标准的文本,以便下游模型能够输出更准确的结果,常见的文本归一化方法主要有以下5个。
● 正则提取:根据实际业务需要,配置正则规则来提取需要的文本。这种方式可以将杂乱的文本恢复成相对标准的文本。
● Unicode字符规范化:对于黑灰产通常采用Emoji、繁体字以及特殊符号去填充、替换部分语句的对抗方式,可以采用Unicode字符规范化的方法来还原文本。通过构建特殊字符、Emoji、繁体字等Unicode字符编码映射表,或者在Unicode生成字符编码的算法基础上,通过一些标准算法倒推原始Unicode编码。
● 文本内容拼音化:这种方式主要是应对同音字、形音字的替换,将中文内容以字粒度或词粒度的方式转化成拼音,然后对拼音形成的文本进行判别。
● 构建恶意词语映射词典:这种方式是应对恶意对抗文本最常见的手段。针对多种作恶手段,如恶意词汇拼音化、同音形音字替换、形近字替换、抽象字替换、字体拆分以及大量暗语替换等,可以通过构建用于映射替换的恶意词语映射词典来还原文本。但这种方式的弊端也很明显,一是为了构建和维护恶意词语映射词典,需要投入大量的人力去做校准;二是构建的词典相对滞后于线上黑产的对抗,当黑产发现相关词语被打击之后,会迅速创建并使用新的恶意词语;三是随着积累的词语越来越多,遍历词典的效率将会变得十分低下。
● 构建文本纠错模型:文本纠错模型一般是用来自动纠正文本中的错别字,使行文更流畅,但是在安全领域中,文本纠错模型很好地应对了字形、字音、字义替换关键词汇的对抗方式。目前主流的文本纠错模型主要有三种,如表所示
3.分句和分词
在挖掘中文文本的过程中,分句和分词是不可或缺的一步。语言具有层次结构,字组成词,词组成句,句组成段落,最后段落组成文章。在很多的文本处理模型中,最小的粒度是字或词,因此我们要在中文句子的词与词之间加上边界标记,即分词。随着深度学习的崛起,越来越多的文本任务模型都是以端到端的方式来训练。但在实际的安全业务场景中,出于对运算资源和计算效率的考虑,轻量级的模型仍旧不可或缺。
常见的分词原理包括最短路径分词、N元语法分词、由字构词分词、循环神经网络分词、Transformer分词。在实际操作中,一般可以使用现成的分词工具,常用的分词工具包括jieba、HanLP、FoolNTLK等。
构建模型
文本无监督模型
在安全对抗场景中,常见的文本无监督模型主要有文本相似度模型和文本聚类模型。模型设计流程如图6.5所示,首先是设计科学的文本相似评价标准,其次是提取文本特征,然后是相似度模型的计算环节,最后通常是在前面模型的基础上应用聚类模型。
相似度模型和聚类模型都能应用在文本内容对抗上的一个前提,是不同类型的违规文本在某个评价维度上是相似的,与线上占比更多的正常文本是有区别的。大部分违规文本为了达到迅速曝光的目的,会在某一时间段内被大批量、多次、多账号、多渠道发布,而且为了规避风控策略,黑产会对内容进行小幅度的修改。但不论内容如何变化,同一类恶意类型往往具有相同的模式。通过一定的方法将该模式作为恶意样本后,相似度模型就可以通过违规样本库迅速识别并匹配恶意类型,并在线上实时地将具有相同模式的恶意内容一网打尽,而聚类模型则主要用于监控可疑内容和新增恶意样本。
1.文本相似评价标准
判断两个文本是否相似,常见的文本相似评价标准有字面相似和语义相似两种。
● 字面相似:在诸如恶意引流、广告轰炸、水军刷评等场景中,为了加深阅读印象,黑灰产团队会强化恶意信息(恶意文本的用词、使用符号等)。表6.3展示了某平台评论区的恶意引流文本,字面上高度相似。字面相似的优点是仅通过字面相似便可以迅速识别出一大批相似的变形文本,缺点是仅靠字面相似会容易将语义相反而字面相似的文本认定为相似。
● 语义相似:在赌博、色情、欺诈、SEO引流等场景中,恶意文本的字面不一定相似,但其所描述的主题及语义高度相似。
2.文本特征提取
在文本内容对抗中,文本特征提取主要解决如下4个方面的问题。
● 如何有效提取并合理表示文本信息。
● 如何保证抽取的特征具有区分恶意文本与正常文本的能力。
● 如何尽可能避免或有效解决黑产对抗带来的干扰。
● 如何在不损失文本核心信息的情况下尽量减少需处理的单词数,以此来降低向量的空间维数,从而简化计算、提高文本处理的速度和效率。
而在实际的业务需求中,除了考虑上述4个方面,文本特征提取方法还会考量如图所示的4个维度
● 业务场景:不同的业务场景会导致数据具有不同的特点。比如对于新闻类、自媒体类的文本,由于这类文本较为正式,因此其语义比较完整。在风控领域中,更多的是针对垃圾文章、涉政、暴恐、色情描述等文本的识别,在评论、弹幕等场景下更偏向于口语化表达,会出现大量表情替代文字或者使用一些新兴网络用语的情况,比如“十动然拒”一词就存在着语义严重缺失的情况。
● 目标需求:不同的业务场景对恶意文本的实时性和准确率有一定要求。例如针对色情、恶意诈骗等强恶意文本,一般要求实时打击,且准确率要求高;而针对垃圾文章等文本,则对其实时性和准确率的要求相对较低。当然判定恶意文本类型的标准取决于平台业务方。
● 数据特点:由于在不同场景中收集到的文本数据长短不一,因此文本的恶意对抗方式也会有很大的区别。例如社交软件、评论、弹幕等场景中的文本长度较短,黑产更偏向于使用符号、暗语、同形同音替换、表情替换等方式绕过检测;而博客、论坛文章、自媒体文章等文本的长度较长,黑产更偏向于采用语义改造等方式进行对抗。
● 工程实践:由于每日的线上数据流非常庞大,因此需要考虑存储资源、计算资源以及实时性的需求。
基于上述4个维度的常量,可以结合文本特点来综合选择合适的文本特征提取方法,这样往往能达到事半功倍的效果。下面介绍在黑灰产对抗实战中7种常用的文本特征提取方法。
(1)one-hot
one-hot是一种离散化的文本特征提取方法。其基本思路是构造一个包含文本中所有词语的字典,并根据这个字典将数字编码映射到对应词语,接着将文本集中的词语提取出来,得到一个大小为D的词汇表,然后用一个D维的向量来表示一个句子或文档,向量中的第C维上的1表示词汇表中的第C个词语出现在这个句子或文档中,而词袋模型中第C维上的数字则代表词汇表中的第C个词语出现在这个句子或文档中的次数。
词袋模型忽略了文本信息中的语序信息和语义信息,认为词语与词语之间互相独立,没有关联,因此也无法区分“你帮我刷单”和“我帮你刷单”两个句子的区别。虽然one-hot在一定程度上可以识别黑产打乱字词顺序后的文本变异攻击,但是这种方法存在数据稀疏、维度过大、不能体现词语的重要性、存在语义鸿沟、需要消耗极大的存储空间及计算资源的问题,因此在one-hot的实际应用中,往往会结合业务场景进行改造。例如通过维护一个违规词典来查看文本内容是否命中词典,从而形成对应的违规词向量。
(2)TF-IDF
TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文档频率法)解决了词袋模型无法体现词语重要性的问题。TF-IDF在词袋模型的基础上通过对词语出现的频次赋上TF-IDF权重来体现词语的重要性。TF-IDF的权重代表了词语在当前文档和整个语料库中的相对重要性,它的主要计算逻辑是词语的重要性与它在文件中出现的次数成正比,但与词语在语料库中出现的频率成反比,因此这种方式适合语料库较为全面且数据充足的场景。
在实际业务中,恶意文本的占比较低,但恶意文本中的恶意关键词的占比却有可能较高,在这种情况下,就需要提高恶意关键词的TF-IDF权重。但这种方式的弊端也很明显,首先词语的语义问题没有得到解决,其次这种方式会极大地受到恶意关键词的对抗手段的影响,如通过形音、同音等方式将恶意关键词替换成正常词语或者注入大量正常文本等,最后,由于文本数据量过大,因此这种方式不仅不能保证高权重的词语就一定是恶意关键词,而且还会出现维度爆炸的问题。
(3)word2vec
one-hot及TF-IDF这类词袋模型的弊端之一就是不能解决语义问题,比如“赌博”与“博彩”在常规认知里是相似的词语,而“赌博”与“慈善”则不相似,但在词袋模型中,这三个词语在语义上没有任何区别。此外词袋模型还存在维度爆炸的问题,然而word2vec算法不仅可以将高维度的文本映射到低维度、稠密的向量空间,而且还可以体现出语义的相似性,其算法原理详见4.4节。
以word2vec中的CBOW模型为例,由于该模型的中心思想是用周围的词语表示关键词,因此对于“色情”与“涩晴”两个词语,其周围的词语极有可能是相似的,于是由“色情”与“涩晴”计算得出的词向量也是相似的。此外,通过在训练语料中加入拼音以及基于字符去训练,能极大地丰富词语的语义信息,有效对抗同音字、形音字替换的黑产手段。
(4)word2vec结合SIF算法
word2vec 主要实现的是字、词维度的向量化,在获得各个词语的词向量之后,句向量应该如何形成呢?最
直接的思路是将句子中的所有词向量求平均,但这种方式对长文本来说,会导致非法词语等重要信息的权重降低。所以在word2vec的基础上,可以引入SIF(平滑逆词频)算法来优化长文本的向量化过程,从而提高恶意信息的权重。
SIF算法的核心在于两个部分:一是加权平均的权重项估计;二是对词频高的词语进行下采样,使得其权值更小。权重调整可以降低重要性较低的词语的影响,从而凸显恶意信息词语的高权重。
(5)doc2vec
通过对word2vec词向量进行加权或求平均等方式可以获得句向量,但这种方法忽略了单词的顺序关系。以“赌博可耻,不会赚钱”和“赌博赚钱,不会可耻”为例,通过word2vec求平均词向量的方法所获得的句向量是一致的,doc2vec可以解决这个问题。doc2vec是在word2vec基础上的改进,在训练中考虑了词语之间的语义信息和单词的排列顺序。
与word2vec一样,doc2vec也有两种模型,分别是Distributed Memory(DM)模型和Distributed Bag of Words(DBoW)模型。DM模型可以在给定上下文和文档向量的情况下预测词语的概率,类似于word2vec中的CBOW模型;DBoW模型可以在给定文档向量的情况下预测文档中一组随机词语的概率,类似于word2vec中的Skip-gram模型。
以训练DM模型为例,从每一个经过分词的句子中滑动取出一定长度的词语,将其中一个词语看作预测词,其他的词语看作输入词。输入词的词向量和本句对应的句向量将被相加或相加后求均值,从而构成一个新向量。在对doc2vec滑动截取的一小部分词语进行训练的过程中,句向量在同一个句子的若干次训练中是共享的,因此,随着每次滑动并取出若干词语来对模型进行训练,句向量表达的含义会越来越准确。
(6)ELMo
word2vec 等技术方法获得的是静态的词嵌入表示,其本质是当模型训练好之后,在不同的上下文语境中,单词的词嵌入表示是一样的,无法解决一词多义的问题。因此,在一些使用正常词语作为暗语替换恶意词语的对抗方式中,word2vec的对抗效果就会受限。为了解决一词多义问题,2018年Peters等人首次提出了ELMo模型,该模型可以考虑上下文语境而选择不同语义。
ELMo模型与静态的词嵌入表示不一样。ELMo首先通过语言模型进行学习,得到单词的词嵌入表示,然后在实际使用词嵌入时,根据上下文单词的语义再去调整单词的词嵌入表示,最终使得单词在不同的上下文语境中有不同的词嵌入表示。ELMo模型的原理如图6.7所示,其网络结构采用了双层双向LSTM网络。
(7)局部敏感哈希
尽管基于神经网络训练出的文本向量在文本表示上取得了极大的成功,但是如果处理的对象是比句子更长的长文本序列(比如篇章),为了降低模型复杂度,一般会采用层次化的方法。首先得到句向量,然后以句向量为输入,最后得到篇章的表示。在网络世界中每日产生的文本内容量非常庞大,常规文本表示模型的计算都需要消耗大量的资源,并且时效性也无法保证,而主要应用在高维海量数据的快速近似查找中的局部敏感哈希(LSH)解决了这个问题。
第一步:分词。
第二步:哈希,通过哈希算法把词映射为二进制编码。
第三步:加权,权重的计算方式有多种,常见的是TF-IDF加权,通过加权可以增大恶意文本的权重,同时减小正常文本的权重。
第四步:合并,将第三步中加权后的所有词语的特征向量累加成一个序列串。
第五步:输出句子编码,将序列串中大于0的数字置为1,小于0的数字置为0,最终形成n位的二进制序列串。
尽管simhash算法能在海量文本中快速去重、计算相似度,但它的局限性也非常明显,由于存在合并这一步骤,因此simhash算法更适用于计算长文本相似度。
3.相似度计算方法
(1)余弦相似度
余弦相似度的基本思想是用向量空间中两个向量夹角的余弦值来衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异(而非距离或长度间的差异),这种方式更适用于word2vec等模型的向量化数据。
(2)欧几里得距离
欧几里得距离是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离,当数据稠密并且连续时,欧几里得距离是一种很好的计算方式。因为欧几里得距离的计算基于各维度特征的绝对数值,所以需要保证各维度指标在相同的刻度级别,一般需要先对特征进行归一化。
(3)闵可夫斯基距离
欧几里得距离和曼哈顿距离是闵可夫斯基距离的特殊化。闵可夫斯基距离的计算适合TF-IDF向量化后的数据或者提炼出来的主题模型数据。
(4)Jaccard相似系数
Jaccard(杰卡德)相似系数主要用于计算符号度量或布尔值度量的样本间的相似度。Jaccard相似系数关注的是样本间共现的特征,比较适合词集模型的向量化数据。
(5)海明距离
在信息论中,两个等长字符串之间的海明距离(Hamming distance)是两个字符串对应位置的不同字符的个数。换句话说,海明距离就是将一个字符串变换成另外一个字符串所需要替换的字符个数。海明距离常常和simhash算法结合使用,先用simhash算法得出固定位长的二进制编码,再通过比较两个二进制编码的异或位数来得出海明距离。一般来说,如果海明距离控制在3以内,那么用simhash算法所处理的两个字符串就高度相似。
4.聚类方法
相似度计算方法主要解决的是判断两个文本是否相似,聚类方法解决的则是给定一批文本,如何把相似的文本划分到同一个类别中,不相似的文本划分到不同类别中。聚类方法最核心的难点在于如何划分类别,以及当一个文本与多个类别的文本均相似时,该将其划分至哪一个类别中。
● 划分式聚类方法(partition-based methods):首先随机对样本进行划分,然后通过算法将原始划分逐步向“类内距离最小,类间距离最大”的方向进行迭代,直到达到某一预定指标为止,常见的划分式聚类方法有k-means、k-means++等算法。
● 基于密度的聚类方法(density-based methods):从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,常见的基于密度的聚类方法有DBSCAN算法。
● 层次化聚类方法(hierarchical methods):在迭代的过程中,在前一层聚类的基础上生成后一层聚类,最终将数据集划分为一层一层的聚类。常见的层次化聚类方法分为两种,即自底向上(bottom-up)的层次聚类方法和自顶向下(top-down)的层次聚类方法。
文本聚类在内容对抗中的主要用途如下:
● 用于半监督模型中的标签扩散,减少人工标注的成本;
● 剔除失效文本,用于数据清洗;
● 线上实时聚类,可以监控新出现的可疑文本,用于情报分析、可疑样本种子库扩充等。
文本监督模型
1.样本打标
在正式训练恶意文本识别模型之前,需要准备一批精确的有标签样本作为模型的训练集和测试集。这里需要依据具体的场景要求和标签体系进行文本样例的人工审核标注,审核标准和严格程度也需要根据场景的敏感性需求进行定义。例如,在只需要区分正常邮件和垃圾邮件的二分类场景中,如果需要将垃圾邮件归属到具体细分类别,就需要在人工审核标注时对样本进行多分类标记。
2.模型选型
根据文本分类算法的发展历程,文本分类算法可以分为传统机器学习分类算法和深度学习分类算法两大类。
(1)传统机器学习分类算法
早期文本分类算法以传统机器学习算法为主,首先需要应用6.3.2节中的方法,从原始文本中提取特征,随后再输入浅层文本分类模型中进行判定,常见的分类算法如LR、SVM、决策树、KNN、朴素贝叶斯分类等。此外,还可以将不同模型进行集成,从而提高模型预测的精度,常见的算法如随机森林和XGBoost等。
通常这类模型在使用过程中需要手动提取特征,且模型的表达能力有限。随着词向量技术的兴起,深度学习分类算法得到了广泛应用。
(2)深度学习分类算法
深度学习网络结构可以自动挖掘文本深层特征的表达能力,能够实现端到端的学习,无须手动提取特征,因此更适用于对抗激烈的安全风控场景。
在实战中,会根据待分类的文本特点、时效性、机器资源等方面来综合选择文本分类方法,常见的深度学习分类算法如图所示。
1)常见的短文本分类算法
业务安全对抗中的文本分类大多是短文本分类,例如黑灰产会在应用商店评论区、商品评论区、视频弹幕区等区域发送赌博、色情等非法文本,这些文本的长度一般不会超过150个字,且对时效性有着较高要求。针对这类需求,常用的算法有TextCNN、fastText等。
TextCNN网络结构通过将词语转为词向量,并在词向量上使用长度不同、宽度等于词向量长度的卷积核进行卷积,再对每个过滤器的结果进行最大池化处理,最后将结果进行拼接送入全连接层进行预测。这里的词向量既可以使用预先训练好的词向量,也可以先使用随机初始化词向量,然后在后续训练过程中进行学习调整。由于其结构简单、训练预测速度快以及性能优越,因此TextCNN在文本安全对抗中被广泛应用。
2)常见的长文本分类算法
在长文本的对抗场景中,常见的恶意长文本有垃圾邮件、垃圾文章等。由于fastText的运行速度快,通常会被用作基准模型。由于卷积层的限制,TextCNN无法解决长距离依赖的问题,因此在长文本分类任务中TextCNN不是首选。虽然通过堆叠多个卷积层的多层CNN(如DPCNN)的性能强于TextCNN,但是弱于BiLSTM。
3)进阶的复杂网络模型
随着黑灰产对抗问题的升级,在保证一定时效性的情况下,可以通过深度学习模型来解决。在众多深度学习模型中,BERT模型是在实战中应用最多的模型之一。
4)模型选型对比
基于上述方法,接下来用某评论场景的文本数据进行模型效果对比,从而让读者对模型的效果有更直观的认识。该数据集的黑白样本比例为1:8,精确率要求为90%,具体实验数据如表所示。
图像内容对抗技术
与文本相比,图像所表达的信息更丰富,可以传递更多内容,这也意味着图像内容领域产生的恶意内容更加丰富,安全对抗方法也更加复杂多变。
图像预处理
黑产往往会在图像内容中使用对抗手段来对图像内容进行模糊、变形等处理,所以在建立图像内容安全模型前,需要对图像进行一定程度的预处理,消除黑产对抗的一部分干扰,并使图像转换为统一的规范格式,帮助后续图像内容安全模型更好地捕捉恶意信息。
在进行预处理之前,首先要了解黑产常用的对抗手段,图像黑产常用的对抗手法如下所示。
● 图像文本:在正常图像中插入恶意文本,一方面通过采用图像的对抗方式,可以规避文本内容安全模型提取文本内容;另一方面通过正常的图像内容,可以误导图像内容安全模型对恶意信息的判断。
● 内容缩放:通过将图像中的恶意内容缩放到极小的局部区域,来降低恶意信息在模型判别中的权重占比,从而提高恶意图像内容绕过图像内容安全模型的概率。
● 亮度极化:通过人为大幅度调高、调低图片整体或局部的亮度,使图片的原有色彩大幅度偏离正常区间,干扰图像内容安全模型对恶意信息的识别能力。
● 噪声干扰:通过随机在图片中添加噪声,包括噪声点、线条、图形等,来对图像内容进行噪声干扰,从而影响图像内容安全模型的识别能力。
● 遮罩及马赛克:通过模糊或马赛克方法,对图像的关键部位进行遮挡和模糊。在不影响语义的前提下,对关键信息进行隐藏,从而避免被图像内容安全模型捕获。
1.图像文本
对于图像内容场景中的恶意文本内容,可以使用光学字符识别(optical character recognition,OCR)方法进行提取,然后使用文本模型对提取内容进行判别。OCR技术包含两个主要的部分,分别是检测定位和字符识别。
● 检测定位:检测定位会确定图像中字符的位置,其目的是将包含局部字符的图像提取出来,从而进行后续的字符语义识别。
● 字符识别:针对得到的具体字符图像,将其中的字符识别为对应的文本字符编码形式,最终得到文本字符串。
在安全对抗实践中,对于主流的Faster R-CNN、YOLO-V3等检测框架,采用ICDAR、COCO-Text、MSRA-TD500等开源文本检测数据集进行训练,从而得到一个输入为图像,输出为图像中文本字符位置的OCR检测模型。字符识别可通过通用的图像分类模型(例如VGG、ResNet、GoogleNet等),来建立识别单个字符的能力。
在安全内容风控的初期,自行从头到尾训练一个光学字符识别模型的时间、资源和人力成本都较高,难以满足高效、低成本搭建系统的需求。在这种情况下,可以考虑直接购买公有云AI服务,让企业快速地具备图像文本识别能力,例如腾讯云、阿里云、百度云等,都提供通用光学字符识别的功能,以及识别定制化场景的需求。下图为某图像云服务提供的光学字符识别结果,可以看到该服务同时标明了文本位置和识别结果。
2.内容缩放
对于缩小到局部的恶意信息,可以通过缩放和裁切找到图像的各个部分,再通过对局部图像进行判别,弥补整张图像恶意内容过少的问题。常见的裁剪方法有滑动窗口裁剪方法和区域分割方法。
(1)滑动窗口裁剪方法
如图所示,滑动窗口裁剪方法会首先将图像放大,然后将一个原图大小的滑动窗口按照一定的步长进行滑动,最后将窗口中得到的每一个图像作为待检测图像,输入到模型中进行安全检测。
(2)区域分割方法
通过引入区域分割方法,我们可以在分割前预先检测图像中风险内容可能存在的位置,然后对轮廓位置进行精准分割,从而捕捉图像中的关键信息。对于待检图片,区域分割会首先通过灰度阈值化将图像转化为二值图像,然后通过区域分割方法检测图像中的连通区域。常见的图像分割方法有区域生长算法、边缘跟踪算法、分水岭分割算法等,在进行区域分割前也可以通过膨胀、腐蚀等操作减少二值图像中的噪声点。随后对检测得到的每一个连通区域进行图像裁剪,用于后续安全检测。
3.亮度极化
对一般安全内容检测模型来说,获取到的大部分训练图像都是亮度均衡的图像。所以黑产会利用此特点将图像亮度调整到极高或极低,亮度极化会使得图像像素值的变化范围和对比度异常。图像亮度极化案例如图所示,左侧为原图,中间为高亮度极化图,右侧为低亮度极化图,可以看到亮度极化让图像出现了接近于纯白图或纯黑图的异常情况。由于异常亮度为非常见现象,因此通过这种方法可在一定程度上躲避图像内容安全模型的识别。
4.噪声干扰
在正常情况下,图像中的噪声点都是在存储传输中偶然产生的,对图像质量的影响有限。但为了对抗模型检测,黑产会人为添加噪声来干扰恶意内容的识别。而在图像内容对抗中,人为添加的噪声不仅仅有孤立的噪声点,还有更有挑战的复杂噪声,例如几何图形、生僻字等。针对这些噪声的预处理方法如下所示。
● 噪声点:针对像素点类噪声的去除,当前已经有较为成熟的去噪算法,例如均值滤波、中值滤波、小波滤波、三维块匹配滤波等。这些算法已能很好地去除噪声点对图像的影响。但当图像中存在密集噪声点时,会导致原图信息大量丢失,去噪算法无法正常恢复原图信息,此时可考虑通过裁剪的方式,单独获取并处理恶意内容。
● 几何图形:黑产通过添加重复的线条、三角形、矩形、星形等几何图形来添加噪声。在预处理中,可以通过区域划分、边缘检测等方法首先检测出连通区域,然后通过轮廓周长面积比、圆形度、边缘梯度分布直方图、形状匹配等方法确定连通区域的形状,从而对与噪声形状一致形状的区域进行清除,然后使用图像补全技术对清除区域进行填充。
● 生僻字:在光学字符识别中,一般难以通过字符识别将生僻字转为文字。但由于生僻字本身和中文字符属于同一文字体系,因此仍然可以通过文本检测来确定其位置。在实际业务中,可以通过收集被光学字符识别检测到的位置,针对未识别为文字的图像建立可疑生僻字库,然后通过人工审核来提升准确率。
5.遮罩及马赛克
对于低俗引流、赌博诱导、非法内容等恶意图像,其主要目的是通过图像内容将用户引导至黑产入口,而并非传播恶意内容本身。黑产通过左图的透明遮罩或右图的马赛克等方法,对敏感恶意信息进行模糊处理,避免被图像内容安全模型检测出。
图像半监督模型
图像半监督模型只需要少量标注就可以完成对图像的判别。通过半监督方法,可以有效节省样本标注的时间、人力和物力。在安全业务初期,高性价比搭建出有一定效果的图像风控系统,可以帮助业务快速建立安全屏障。
1.黑产内容的聚集性
根据恶意内容不同,黑产内容聚集可以分为以下三类。
(1)图像素材聚集
对赌博、广告等使用图像进行恶意引流的黑产来说,在不被打击情况下,其引流的文案、插图、背景等往往会保持一致。为了节省成本,新成立的黑产团队往往也会盗取成熟的素材进行使用,甚至在地下交易市场,已经有打包好的素材进行批量出售,为使用类似素材建立的赌博页面,表现出素材的相似聚集性。而对本身非法的图像内容来说,由于其依赖于特定的内容,也会存在图像内容的相似性。
(2)排版格式聚集
与内容素材相似,恶意图像中素材信息的排版格式(例如图文的相对位置、引流区域的划分),依赖于图像生成源码或者原始设计稿。当黑产对源码或设计稿进行复用时,即便使用不同的素材,也会生成相似的排版。由于页面或图像排版的变动成本较高,因此黑产也会通过改变素材内容来绕过打击,此时可以通过排版格式的相似性来对黑灰图文进行聚集。
(3)对抗手段聚集
针对互联网平台的风控检测,黑产往往会在图像中生成对抗纹理,利用这些对抗纹理来误导模型,常见的对抗纹理有随机形状(三角形、星形、线条)、透明遮罩、阴影条纹、色彩暗化、花体文字、放射变换等。
2.图像特征提取
在图像内容风控中,合理的图像特征提取对图像模型有以下作用。
● 图像特征提取是对图像信息的筛选,通过筛选有效图像信息,可以避免无关冗余图像信息、噪声离群点等对后续模型的干扰。
● 图像特征提取是对图像信息的抽象和总结,恶意图像中的非法内容、违规文字等高级语义信息,都被分散在单个像素中,通过聚合、识别这些高级语义信息,可以为后续模型提供有效的特征信息。
● 图像特征提取有效地压缩了图像特征维度的量级,避免后续模型产生“维度爆炸”的问题。
● 在实际安全业务场景中,图像风控问题的数据来源、恶意内容特点、黑产对抗手段、用户危害等都大不相同;在业务工程化场景中,数据量级、资源情况、实时性要求也千差万别。所以在选取特征提取方法前,需要对当前风控场景和问题进行深入了解和分析,再结合自身的业务特点,选择最合适的特征提取方法,才可以让业务风控事半功倍。
特征提取方法要从黑产特性、安全场景、工程实践等多方面来综合决定,主要考虑的因素有以下5点。
● 恶意信息范围:不同的图像特征提取方法,在图像空间中提取到的信息范围不同。当特征提取范围小于恶意信息范围时,就会导致提取信息不足;当特征提取范围远大于恶意信息范围时,过多的冗余信息就会影响提取效果。
● 恶意信息语义层级:图像的语义层级从下到上可以分为像素层、纹理层、实体层和场景层,不同的特征提取方法提取到的信息层级也不同。当提取特征层级与恶意信息层级不匹配时,就无法精准获取恶意特征,例如针对特定违法物品的风控,图片中的恶意信息是通过违法实体进行表达的,此时使用纹理层特征便无法合理获取到恶意信息。
● 样本量级:实际业务中收集到的样本量不同,可选择的特征提取方法也不同。非机器学习方法无须训练样本,不同机器学习方法所需的样本量级也从数万到数百万不等。
● 实时性要求:不同特征提取方法的计算复杂度不一样,在计算资源基本确定的情况下,特征提取方法的计算复杂度越高,则越难满足高实时性的要求。
● 存储容量:不同特征提取方法所需的存储容量不同,尤其是机器学习类的特征提取方法,往往对存储容量的要求巨大。
3.聚类
通过计算向量距离(欧几里得距离、余弦相似度、汉明距离、曼哈顿距离等)来表示两个图像之间的相似度,再通过样本聚类把一个数据集分割成不同的类或簇,使得同一个簇中的数据对象的相似度尽可能地大,同时使得不在同一个簇中的数据对象的差异性也尽可能地大。
图像监督模型
图像监督模型是以机器学习、深度学习为技术基础,使用带有安全标签的图像数据集进行训练。训练后的模型可以捕捉到图像中恶意信息的特征和形态,然后对未被标记的图像内容的安全情况进行预测,判断图像内容的风险。
在大数据安全治理中,监督模型具有自动化程度高、识别能力强、优化路径清晰、模型预测阶段无须人工参与等优势。同时,其判别结果比半监督模型更加精准、可靠。监督模型具有成熟的优化流程,对于误判、漏判的样例,可以加入模型微调训练来提升模型能力。通过主动学习方法,可以找到数据中潜在的易错判样本,对模型进行针对性优化。
1.人工审核
在训练图像内容安全模型前,首先需要建立包括正常图像和标签体系中各恶意类型的恶意图像训练集和测试集。由于大部分恶意图像本身不被允许传播,因此几乎没有合适的公开数据集,而外部数据集中的恶意图像的恶意特征、对抗手段与本业务所面临的情况可能大相径庭。这种差异可能导致模型产生与实际情况不符的偏移,从而影响模型的效果和可控性,所以外部数据集不完全适合作为本业务安全模型的训练集。
2.模型建模
(1)图像分类模型
图像分类模型可以基于输入图像对图像类型进行判别,例如判断社区用户发布的图像是否属于赌博或色情图像。早期图像分类模型会首先进行图像特征提取,然后使用一个机器学习的分类器(例如XGBoost、SVM、随机森林等)进行分类学习。自2012年AlexNet被提出以来,基于神经网络的深度学习在图像分类领域取得了压倒性的优势,成为图像分类模型的主流建模范式。
图像内容安全模型的基础是卷积神经网络,与全连接网络不同,卷积神经网络会使用多个卷积核在图像上按照一定的权值进行滑动卷积操作,其中卷积核的权值可以利用网络的反向传播进行训练。
(2)目标检测模型
在一些安全场景中,不但要求我们判断出图像是否存在恶意或存在哪种恶意类型,还需要确定恶意信息的位置,例如获取社区图像中违规元素的具体位置,以便进行存证,并对恶意信息做进一步分析。
(3)图像分割模型
在目标检测的基础上,对于更为严格的内容安全,不仅要得到恶意信息的位置,还要将恶意信息的类别划分精准到像素粒度,这就需要以图像分割的方式来建立模型。图像分割模型与图像分类模型较为相似,只不过分割模型的输出不再是判别类别,而是一张与输入图像高宽相同、通道数为类别数的向量,其本质需要对图像中的每一个像素所属的类别进行判别。
3.可解释性
完成模型构建和训练后,便可使用模型对待测样本进行预测。然而对安全业务场景来说,当模型将样本判断为恶意时,业务方会对恶意信息采取打击、拦截等处置手段。这使得模型的判断结果会在业务方和用户方产生较为明显的感知和影响。一方面,当面对用户的申诉时,模型需要给出可解释的判断依据作为举证内容。另一方面,由于对误判零容忍,因此也需要模型给出判断指标来检测模型是否可靠。
主动学习
建立完图像内容安全模型后,即可对业务中的恶意内容进行识别、处置和打击。然而与一般图像识别任务不同,安全领域的对抗是时时刻刻存在的,黑产在感知到被打击后也会尝试通过各种修改图像内容的方法来绕过模型。由于安全业务也无法时刻进行大规模的审核与排查,因此随着时间的推移,原有模型的泛化效果会逐步衰退。这就需要我们建立主动学习的机制,帮助业务感知边界样本和黑产动态,完成模型的持续性优化。
多模态内容对抗技术
多模态定义
机器学习中的模态主要指数据的组织和表现形式,同一模态的数据往往拥有相同的数据结构、数据来源或表征逻辑。在实际业务中,模态的划分方法不是固定不变的,而是与实际业务相关。对于同一模态的数据,可以使用同一种模型进行统一处理;而对于不同模态的信息,就无法直接进行关联和映射。常见的模态划分方法有如下三个。
● 数据结构:不同模态的数据具有不同的数据结构,例如内容数据模态可划分为图像、文本、音频和视频,它们在计算机数据存储中的组织形式都不相同,所以同一模态可以统一处理,不同模态不可相互关联。
● 数据来源或场景:对于数据结构和表征逻辑相似,但数据来源和场景不同的数据也可以划分为不同模态,例如评论文本、举报文本和申诉文本,由于其场景不同,对应的处理方式也各不相同。
● 表征逻辑:如果数据的数据结构相似,就可根据表征逻辑的不同来划分不同模态,例如文本中的不同语言、图像中的RGB图像与HSV图像等,虽然它们的数据结构是相似的,但是由于表达逻辑不同,不同模态的信息仍然不可相互映射。
模态融合
模态融合的目标是将不同模态的特征信息以合理的方式融合在一起,用于后续的内容安全判别。按照融合层次的不同,可以分为早期融合、后期融合和混合融合。
● 早期融合(基于特征的融合):指在数据输入端或特征提取后就对数据进行融合,在多个模态的底层数据之间建立交互过程。其优点是各个模态信息量融合充分,缺点是底层模态关联性较弱,冗余信息较多,不便于通过建立相关性来提升整体模型效果。
● 后期融合(基于决策的融合):对不同模态的数据输入分别建模,对各个模型的决策输出进行融合。其优点是经过模型筛选的冗余信息少,决策结果之间关联性强,缺点是底层特征信息量有限,无法捕捉底层相关性。
● 混合融合:结合了早期融合和后期融合两种方法,在底层数据和上层决策阶段分别进行数据融合。其优点是可以兼顾底层信息,保留与上层决策的关联,缺点是整体模型变得更为庞大而复杂,提高了训练的难度。
协同训练
协同训练(co-training)方法由Blum和Mitchell于1998年提出,该方法将每一个模态视为样本集的不同视图。协同训练认为只通过一个视图的建模训练,便可获得分类器对其他视图提供的较好性能的监督信息。协同训练首先在一个标记的数据集上,使用两个不同视图(M1与M2)特征训练两个分类器(C1与C2)。然后使用C1分类器在未标记数据集上进行预测,选取高置信度的判别样本,再根据模型判别结果打上标签,加入到另一个M2训练集中;同样通过C2分类器获取样本,再加入到M1训练集中。接着分别使用更新后的训练集对C1和C2分类器进行训练优化,然后重复上面的几个步骤。接下来对这个过程不断迭代,直至到达设定的某一停止条件或最大迭代数,最终获得在两个模态上表现更好的分类器。这种方法也可以很轻易地扩展到多个模态上。
基于复杂网络的对抗技术
复杂网络基础
复杂网络风控技术的基础建设是后续工作可以正常进行的基础,因此在整个基于复杂网络风控技术的业务系统中至关重要。接下来本节将从网络分类、网络表示、网络存储、图可视化这几个方面展开介绍。
网络分类
根据节点和边的类型进行划分,复杂网络可以分为同构网络和异构网络。
1.同构网络
同构网络(homogeneous network)是指只有1种节点类型和1种边类型的网络结构。在金融风控场景中,例如银行卡之间的转账关系、社交好友之间的红包发送关系等就是典型的同构网络,如图所示。
2.异构网络
异构网络(heterogeneous network)是指节点类型数量大于1或者边类型数量大于1的网络结构,例如金融风控中的用户-商户交易网络、用户-设备关系网络、网址风控中的万维网等,如图所示。
网络表示
在存储复杂网络之前,需要确定用何种数据结构来表示它。常见的表示方法包括邻接矩阵表示法、边缘列表表示法和邻接列表表示法。接下来,本节以金融风控中常见的用户转账网络作为示例,分别讲述这三种图表示方法。如图所示,该网络中包括5个用户节点和7条转账关系构成的边,每条边上的权重为转账金额。
1.邻接矩阵表示法
邻接矩阵是一种表示节点之间关系的矩阵,矩阵中的每个元素代表各个节点之间是否有关系,以及节点之间的权重。金融风控中的用户转账网络可以用邻接矩阵表示,如表所示。这种表示方法的特点是简单和直观,可以快速判断两个顶点之间是否存在边,以及快速添加边或者删除边,因此邻接矩阵表示法常出现于算法公式中。但邻接矩阵也存在稀疏性问题,不利于存储空间的有效利用,所以进一步出现了其他图表示方法。
2.边缘列表表示法
边缘列表表示法是另一种比较常见的图表示方法,每条边由起始节点和终止节点以及它们之间的权重来表示。表是金融风控中用户转账网络的边缘列表表示。这种表示方法解决了邻接矩阵的稀疏性问题,但节点和边的表示并不是很直观,也无法表示孤立点。如果复杂网络图是以边为实际存储的话,那么边缘列表表示法就比较适合。
3.邻接列表表示法
邻接列表表示了图中与每个节点相关的边的集合,存储了每个节点的所有相邻节点,以及它们之间的权重。下表是金融风控中用户转账网络的邻接列表表示法。与邻接矩阵相比,邻接列表的特点是节省空间,只存储实际存在的边,但邻接列表每行的结构是不一致的。如果复杂网络是以节点为key来存储边的形式,那么邻接列表表示法就比较适合。邻接列表表示法往往也是图数据库采用的方式。
网络存储
复杂网络图存储中应用了图数据库,图数据库是一种以图结构进行存储和查询的数据库。相比传统关系型数据库,图数据库可以很直观地表达现实世界的关系,且易于建模,同时还可以高效地插入和查询数据,因此,图数据库在安全风控领域也得到了广泛应用。例如,利用图数据库来分析黑产中介、“羊毛党”和诈骗团伙的关系。下表从多个维度对比了三个主流的开源图数据库。
网络可视化
网络可视化作为复杂网络分析的重要一环,也是不可或缺的。一个好的网络可视化工具,可以更好地帮助安全从业人员进行团伙挖掘与产业链上下游分析。目前已经有不少开源的可视化工具供安全从业人员选择,其详细信息介绍如下。
1.NodeXL
NodeXL以微软的Excel为基础,可为安全从业人员提供方便实用的复杂网络可视化和分析工具。该工具提供了包括数据导入、数据表示、常用图分析的测度和算法,还提供了交互式画布,使得安全从业人员可以选择节点的布局,并允许安全从业人员在画布上选择、拖曳节点,也可以编辑节点的大小、颜色和透明度等属性。总的来说,NodeXL简单易用,且拥有不错的分析功能,但在安全从业人员使用NodeXL前,需要用其他软件将数据处理成标准格式。
2.Graphviz
Graphviz用简单的DOT语言来描述复杂网络,可以在设计图时添加诸如颜色、字体、节点布局、超链接等选项,在安全风控相关的机器学习任务中得到了大量应用。总的来说,Graphviz非常容易上手,可以自由地设计节点、边的形状,但是它只提供了几种布局,也不支持手动调整布局。
3.Gephi
Gephi也是安全从业人员常用来探索和理解复杂网络的工具,Gephi可以与图形产生交互,改变图形的布局、形状、颜色等,这可以帮助安全从业人员在分析的过程中更好地发现数据模式。同时Gephi提供了多达12种布局算法,还提供了丰富的网络测度和社区划分算法,此外,还可以通过交互式界面来动态筛选复杂网络的节点和边,于是安全从业人员可以聚焦到自己想要观察的地方。总的来说,Gephi操作简单,容易上手,不需要编写代码,对新手比较友好,但在使用之前,需要将数据转换成Gephi需要的数据格式,这可能需要花费些时间。图7.5是在某网址风控任务中,利用Gephi分析得到的恶意网站社区表示。
以上三种网络可视化工具,各有所长,上手都比较简单,比较适合初级安全从业人员进行图可视化分析、挖掘黑产模式。当然除了这三种网络可视化工具,业界还有不少可视化软件,例如Palantir、COLA、蚂蚁金服的G6、腾讯的EasyGraph、百度的Echarts等网络可视化工具。
复杂网络测度
反欺诈实战案例
婚恋交友反诈骗
风险场景
诈骗是一个长时间的持续过程,分为事前、事中和事后三个阶段。
● 事前阶段:指犯罪者开始策划诈骗行为但还未接触受害者之前的诈骗准备阶段。通常这一阶段会准备诈骗设备、账号、文案等作案工具,为后续诈骗活动的开展建立基础。在婚恋交友诈骗中,黑产主要通过批量注册、养号、上传人设资料、建立剧本来进行诈骗前的准备。
● 事中阶段:指犯罪者从开始接触受害者到骗取受害者财产的诈骗实施过程。在这个过程中,犯罪者会将诈骗手段应用于受害者,以达到误导蒙骗的效果,最终实现非法获取钱财的目的。在婚恋交友诈骗中,诈骗者首先通过社交引流的方式添加受害者为好友,然后按照剧本与受害者通过聊天等互动方式建立感情联系,最后诱导受害者转账或将受害者引导至虚假投资赌博平台进行充值。
● 事后阶段:指犯罪者完成诈骗后的洗钱阶段,同时也是受害者醒悟和投诉的阶段。此时诈骗过程已经完成,诈骗者通过各种洗钱手段对资金进行转移和洗白,受害者开始通过举报、报案等手段尝试追回损失。
事前预防
在实施诈骗前,黑产主要的准备工作便是批量注册账号,然后通过猫池、群控等方法进行养号,同时上传用于诈骗的伪造资料。所以在这一阶段,主要的对抗场景便是在注册、登录、上传资料等环节。在这些环节中,应用端获取到的用户信息量有限,可通过对环境IP、设备、账号资料、图像内容等建立风险名单和识别来进行对抗。这里以某交友平台的业务为例,介绍两种安全对抗方案的具体过程。
1.风险名单对抗方案
当用户通过网页访问某交友平台时,请求中包含用户账号、手机号、IP信息。当用户通过移动应用访问该交友平台时,除账号、手机号、IP信息之外,还带有设备ID、地理位置信息,同时可通过请求权限获取设备装机列表的情况。由于该平台用户主要通过移动应用进行访问,因此在用户访问时可通过验证访问IP、设备ID、账号是否在风险名单中来对访问请求进行判断。
● 高频IP名单:黑产往往会通过注册机批量注册来获取账号,其表现为短时间内大量的注册请求。所以在注册场景中,可以对一个时间窗口内的IP请求量进行统计和监控,对于请求量存在高频突变的IP,将其作为可疑IP加入到高频IP名单中,当IP命中这一名单时,表示该IP近期出现过高频突变。
● 代理IP名单:黑产在批量注册时,也有可能采用代理IP对抗高频IP的策略,所以可通过收集代理IP及IDC属性的IP建立代理IP名单,从而进行风险提示。当访问IP命中此名单时,表明请求方使用了代理IP或秒播IP。
● 风险位置名单:诈骗通常都是以团伙为单位进行的违法活动,这就避免不了在地理上出现聚集性。通过移动设备定位或IP地址确定用户的地理位置,再统计出恶意账号出现的次数和占比高的位置,那么该地区就为诈骗行为高发地区,极有可能是团伙聚集地,可将该地区加入风险位置名单。
● 可疑装机设备名单:黑产为了批量操作移动设备,通常在移动设备越狱后使用群控、多开、自动化脚本等软件进行操控,当我们通过装机信息感知到某设备已被越狱或安装有相关软件时,可将其列为可疑装机名单。
● 行为异常账号名单:从用户周期模型来看,用户从新用户到重度用户是一个渐变的过程。新注册的用户首先需要尝试探索并学习应用,逐渐熟练后才能频繁使用应用中的各种功能,直至成为重度用户。对于刚完成注册便出现大量使用应用功能、频繁进行交互等不符合用户模型的账号,便可能为黑产养号或用户小号,需要建立行为异常灰名单。
● 位置异常账号名单:当用户通过移动应用访问时,可以同时通过移动设备上报定位或通过IP获取访问的地理位置信息,对正常访问用户来说,这两个地理位置应该是相同的。如果二者显示的位置不同,那么证明可能使用了代理IP或虚拟定位,需要将该用户加入到位置异常风险名单中。
2.无监督图片聚类方案
在婚恋相亲或交友平台中,可以通过上传个人资料完成个人信息的展示,建立初步认识。一般来说,个人信息越完善,越有可能得到其他用户的青睐。而对婚恋交友诈骗来说,为了能吸引更多的潜在受害者,建立完善的人设是必不可少的。故当黑产绕过注册登录阶段后,下一步最重要的便是上传人设资料。
第一步:构建头像数据集。
取用户头像数据建立数据集,同时对图像进行预处理,对图像大小、数据类型、取值进行归一化处理。
第二步:构建自编码器网络。
在自编码器中,编码器利用卷积层和下采样将头像图像编码为固定长度的向量,解码器利用反卷积层将向量还原为原图大小并重构信息。
第三步:模型训练。
使用随机梯度下降(SGD)或动量优化算法对神经网络进行训练,随着训练的进行,损失函数的loss逐渐下降,表明神经网络对于图像编解码的重构能力越来越强,模型对于图像特征的提取越来越精确。
第四步:图像特征筛选。
完成训练后,使用编码器对图像进行推断,得到图像的编码向量,编码向量表示神经网络对图像提取的特征信息。对于得到的向量,通过计算向量距离来表征两个图像之间的相似度。
在大数据场景下,图像向量数据量较大,直接使用聚类算法的时间和资源消耗量巨大,所以首先使用相似度对可疑头像进行筛选。 V为所有图像集合,S为可疑图像集,N为正常图像集,筛选算法如下所示。 首先,从V中选取某一图像,与V中的其他图像和S中的图像分别计算相似度。 其次,当相似度均小于阈值时,将该图像加入正常图像集N;否则将该图像和与该图像相似度大于阈值的图像加入到可疑图像集S中。 最后,重复前两个步骤直到V中的所有图像都被划分到正常图像集合N和可疑图像集合S中。
事中拦截
在婚恋交友诈骗的事中阶段,诈骗者在完成身份人设包装后,便开始通过平台的相亲交友机制进行社交引流,添加大量目标受害者。然后通过言语将受害者诱导至虚假投资或赌博平台,诱导其充值完成诈骗。
相比于事前,黑产在实施诈骗过程中会暴露更多信息,更有利于大数据安全的风险识别。在黑产实施过程中,结合黑产行为的特点,可以针对性地构建业务特征,随后基于异常行为、账号画像、时序行为等方法来对诈骗行为进行识别。
1.账号风险画像
在互联网应用和服务中,黑产用户行为模式往往比较固定且有别于正常用户,所以通过对诈骗关键特点和行为的匹配、识别与统计,可建立账号风险特征体系。随后通过构建规则模型或机器学习模型,可有效地对账号的诈骗风险进行刻画。
2.传播网络扩散
在婚恋交友黑产诈骗过程中,当诈骗者逐步取得受害者的信任后,最重要的一步是欺骗受害者并让其交出财物。在这个过程中,诈骗者主要通过发送网址、二维码,将受害者引导至诈骗站点或App,或是直接发送银行卡、支付账号,让受害者直接转账。
事后回溯
当诈骗者绕过重重阻碍完成诈骗后,用户会在平台进行举报。此时并不意味着反诈骗对抗的结束,反而是诈骗事后回溯策略的开始。“失败是成功之母”,失败的反诈骗案例可以进一步为事前和事中模型建立监督数据,同时帮助安全体系查漏补缺、不断提升。
诈骗者完成诈骗意味着诈骗者已经绕过安全策略,在完成用户举报账号处置后,通过对被举报账号的历史数据进行分析,可以达到以下6个目的。
● 回溯绕过原因:通过历史数据还原安全模型的判别结果,分析绕过原因,以检查现有安全体系是否存在漏洞。
● 丰富风险名单:对回溯到的环境IP、设备、位置信息进行聚集分析,将漏过的聚集风险信息补充至风险名单中。
● 提供监督信息:事后得到的恶意账号可信度极高,可以以此作为监督标签结合历史样本来训练模型,进一步提升模型性能。
● 补充种子库:补充图扩散种子库,然后进行重新扩散,可以在扩散过程中发现更多风险账号。
● 输出涉案线索:通过回溯到的历史数据获取案情相关关键信息,然后输出给警方,协助案件侦破。
● 建立模型验证指标:通过回跑历史数据检验反诈新模型是否覆盖举报账号,以此来对新模型效果进行评估。
反诈对抗运营
与黑产的对抗是一个长时间的持续性过程,一方面黑产会不断寻找并绕过安全体系的漏洞,另一方面安全模型自身也会存在数据漂移、模型衰退等问题。从产品的角度来看,安全策略需要考虑对用户增长和留存的影响,尤其是关键用户的增长和留存,同时还需要处理用户举报、申诉等问题,所以建立一个稳定的反诈对抗运营体系同样十分重要。这里介绍对抗运营中的5个关键流程。
● 申诉处理流程:当用户账号被误限制时,需要通过申诉流程来申请解除限制。申诉流程需要结合限制时的对抗策略判别结果及证据,来确定是否允许用户通过提供更强的验证信息(例如身份证信息、人脸视频等)来解除账户限制。
● 举报处置流程:对于被举报账号,可自动结合现有安全模型进行判别处理;对于被现有模型判为较高诈骗风险等级的账号,可直接进行限制处置;对于未被判为风险的账号,需进行人工审核处理。
● 模型监控流程:通过用户举报和申诉,回溯安全模型的判断信息,可以持续监控模型的准确率及覆盖率。对于准确率降低、可能产生大量申诉和误判的模型,需自动将其下线,避免模型衰退而导致大规模误判。
● 诈骗情报挖掘:从诈骗蓝军角度进行情报监测,情报包括买料价格、引流渠道、作案手段等,帮助安全红军验证打击效果,从而把握诈骗动态。
● 线索扩线挖掘:对于已知作恶线索,可通过查询流程筛选出的可疑范围给出更多相关作恶线索,帮助安全对抗人员对单案例进行详细分析。
营销活动反作弊
“羊毛党”黑灰产主要基于猫池设备等黑产工具,首先利用大量虚假号码在外卖平台批量注册新账号,然后批量控制新账号以获取大量首单优惠券,最后再把获取到的优惠券在二手市场转手变现。
反欺诈运营体系与情报系统
反欺诈运营体系
从模型构建到模型部署,再到提供服务,至少需要从以下4个维度来做监控。
● 服务层监控:主要监控服务所在服务器的硬件指标、服务调用吞吐量以及时延等。
● 模型层监控:主要监控模型打分分布、判黑率以及判黑申诉率。
● 特征层监控:主要监控特征数据的覆盖率以及数据分布是否正常。
● 数据层监控:主要监控数据的采集、上报、存留以及数据处理流程是否异常。
完成各个环节的监控后,要进一步针对监控数据建立起事故感知及分级机制。将事故按照轻度、中度、重度进行分级,并建立起对应的告警、处置制度流程。反欺诈运营体系的流程如图所示。
服务层
服务层指通过Web页面、API接口等方式建立在线服务,为产品提供具备安全能力的实时系统。在模型被部署到线上之后,需要对服务做监控以确保能准确且及时地判断服务的运行状态。监控服务主要从两个角度出发,第一个是监控服务所在服务器的硬件环境,第二个是监控流量是否异常。
模型层
上节提到如何保障服务稳定运行、可靠地为客户提供返回数据,为了保障输出模型的安全能力是有效的,还需要对模型质量进行监控。监控模型质量,一般从离线评估和线上监控两个方面进行。离线评估需要借助测试样例来评估模型的效果,在离线评估满足上线要求后才会将模型上线,线上监控主要根据一些实时返回结果来评估模型的效果。
离线评估
模型的离线评估是在模型训练好之后,用模型给测试样本打分,然后结合测试样本的标签计算出不同分数段的准确率和对黑灰样本的覆盖率,还需要给出模型的KS值和AUC值等评估指标。不同分数段的准确率和对黑灰样本的覆盖率能够向决策者给出明确的模型分的使用指导和说明。对于黑产内容判别模型,期望存在一个理想阈值,覆盖尽量多的黑产内容,减少对正常内容的误判,这个阈值其实对应的就是最大KS值。AUC值能较为全面地刻画整体分数的区分能力。
线上监控
模型的线上监控主要是指监控模型的稳定性、泛化性、准确性和覆盖率。构建好黑产模型后,可以将其搭建为在线服务,便可实时地对业务侧产生的数据进行分析和处置。此时会对实际业务产生影响,那么就需要监控线上的实时判黑情况
特征层
模型层主要针对模型的多个监控维度进行了说明。同时,模型对特征有较强的依赖,特征数据出现问题会对模型产生较大的影响。因此,本节会对特征层的监控展开说明,特征的监控主要包含两个方面,分别是特征稳定性的监控和特征异常值的监控。
数据层
在大数据安全对抗体系中,数据层为特征的生成提供原始信息。数据层的整体流程主要包括4个阶段,分别为:采集、上报、留存以及数据处理流程。数据质量是对4个阶段输出的数据特性进行监控,主要在数据准备阶段和数据处理阶段两个阶段进行。数据准备阶段主要针对数据的采集和上报阶段,来监控数据有没有异常;数据处理阶段主要针对数据的留存和处理阶段,会对离线以及在线数据仓库的数据质量进行监控。
在数据准备阶段监控数据质量,主要需要考虑4点,分别是数据的完整性、准确性、一致性和及时性。
● 完整性监控:监控数据条数和特征情况。
● 准确性监控:监控数据中的异常或者错误情况。
● 一致性监控:不同来源的数据进行交叉验证的情况。
● 及时性监控:检查数据在各个处理流程汇总中是否存在严重滞后性。
事故分级与告警
在对上述的服务层、模型层、特征层和数据层做有效监控之后,需要在发现问题之后对事故做好分级,然后针对不同的事故分级进行不同的告警方式,保障事故能被及时处理且不会浪费资源。
情报系统
情报可以抽象定义为通过对数据监控分析和挖掘,整合成能够辅助、支持决策的信息。构建情报系统的目的也是为了解决情报数据产生速度快、来源多、种类杂、范围广、业务场景复杂等问题。通过体系化系统,构建对复杂数据高效快速的处理能力。如图所示,在大数据安全治理与防范体系下,情报系统内容主要包括以下三类。
● 基础类情报:黑产使用的相关设备、网络、工具、账号等情报信息,包括恶意IP、恶意设备、恶意URL、风险/病毒APK、黑灰产使用工具等。
● 画像类情报:刻画大数据风险群体的聚集性和差异化特点,如黑灰产中诈骗、赌博等团伙的属性特征画像、行为特征画像等。
● 态势类情报:对于大数据安全风险信息在全局、动态、趋势上的洞悉,例如黑灰产工具或账号的价格变化趋势、产业链热点或手法感知、网络安全威胁情报、预警事件情报和业务定制化情报等。
对于上述情报系统,可以看出不同类别情报都是从原始安全数据中得到的,粒度由粗到细,信息量由多变少,直接业务价值由少变多。
体系架构
情报系统可以概括为情报获取、加工、分析、输出等步骤,如图所示。情报系统中最核心的模块是情报加工和情报分析,情报加工是对各个来源的情报进行清洗、自动化感知和热点分析;情报分析是在加工的基础上侧重于具体业务场景的需求。
情报获取
● 内部自有情报:主要是自有安全数据,例如前文介绍涉及流量、内容、社群等多个方面数据,经过监控、分析、挖掘而生成的,一般是公司内部安全产品合作提供的部分内容。
● 外部合作情报:主要是通过第三方合作得到的数据,如外部安全厂商的威胁情报产品。
● 开源信息情报:主要是在合规、合法的前提下,从互联网可公开信息资源中获取并分析得到,如第三方的公开研究报告、白皮书等。
情报加工
● 自动化感知模块:针对已知或成熟体系化的情报内容需求,高度自动化原始情报数据,不需人工过度干预,便可以满足实时情报需求和离线情报需求,在海量数据下高效快速输出高价值的情报内容,例如关键词词库自动提取模型。
● 高价值情报挖掘模块:该模块通过安全策略、机器学习、深度学习等方法对已知内容进行建模分析,除了为自动化提取分析提供能力,还需要随着黑产对抗手段的升级,持续关注新型的黑产模式和作恶手段,挖掘潜在未知风险。这些信息对于提升安全人员对黑产动态的把握、指明大数据安全模型的优化方向以及建立新一轮对抗思路都至关重要。
● 关键/热点情报分析模块:该模块聚焦的是当下安全热点或业务方重点关注的关键情报。根据热点舆论事件、关键时间节点、安全业务方关注重心等需求,调整情报内容的质量和组成,并通过与业务方交互,及时更新安全策略。
情报分析
● IP情报分析案例:在第5章中提到的IP风险识别场景下,IP画像情报可以提供识别高可疑黑灰产使用的动态风险IP的信息,用于评估业务当前接入流量的潜在风险情况。对原始情报加工后的数据,可以从IP的位置、基础属性、风险情况中构建风险IP画像情报,如图10.6所示。根据业务需求,可定制用于监控流量的风险情况,又可以评估业务对抗模型的效果。
● 设备情报分析案例:同IP情报分析类似,基于业务需求,定制设备风险识别场景下的应用类别。设备风险识别技术可以精准识别篡改设备、伪造设备、虚拟设备,如模拟器、云手机、农场设备、箱控设备、多开设备。最终输出真假机器/用户的风险标签,给黑灰产设备的识别提供画像类情报和评估模型的对抗效果。
情报应用
对于情报获取、加工和分析后得到的高价值情报,可以通过具体的场景需求定制化输出。常见的输出形式分为专题情报文章、态势感知、量化指标。情报也可以作为对抗模型效果的重要评估手段之一,例如通过账号、虚拟服务和黑灰产等工具价格的变化,从侧面反映账号打击策略的效果。
● 专题情报文章:专题情报文章结合时效热点和重点关注内容,经过多维度整合,生成专业分析报告或简要科普向文章,如图 10.7 所示。专题情报文章的内容覆盖黑灰产的整体动机、操作手段、绕过策略、资源获取、特殊手段、涉及规模和类比事件等。同时也会给出分析后的专业防控建议,包括监测类、防控类、打击类等黑灰产风险控制建议。
● 态势感知:情报也可以形成态势感知来进行可视化评估和展示,可以让用户在决策判断时,对现状有直观而清晰的感知。
● 量化指标:通过情报可以针对安全领域的客观事实建立量化指标,用来对模型效果进行判定,如黑市的账号交易价格趋势。下图是黑市某账号价格的变化趋势,可以看到A类型账号的买卖价格一直处于上升趋势,说明业务侧对于账号的打击力度比较大。C类型账号上升后保持稳定说明可能对抗强度和打击力度没有加大。B类型账号的价格在上涨后又继续回落,可能外网有新的对抗方式产生。
IMSI和IMEI
1、imei IMEI(International Mobile Equipment Identity,国际移动设备标识),imei与手机绑定。由15位数字组成,与每台移动设备一一对应,且该码全世界唯一。 imei结构:TAC+FAC+SNR+SP TAC(Type Approval Code):6位,型号核准号码,代表机型。 FAC(Final Assembly Code):2位,最后装配号,代表产地。 SNR(Serial Number):6位,出厂序号、串号,代表生产顺序号。 SP:1位,由厂家出厂设置,是校验码。 手机imei查看:#06# imei由GSMA协会统一规划,并授权各地区组织进行分配。 imei和imsi存在一一对应关系,所以双卡双待手机有两个imei。 2、imsi imsi(International Mobile Subscriber Identification Number)国际移动用户识别码,是区别移动用户的标识,存储在SIM(Subscriber Identity Module,用户识别模块)卡或者USIM(Universal Subscriber Identity Module,全球用户身份模块)中。 长度不超过15位,由0-9数字组成。 imsi结构:MCC+MNC+MSIN MCC(Mobile Country Code,移动国家码):移动用户所属国家代号。MCC的资源由国际电信联盟(ITU,International Telecom Union)在全世界范围内统一分配和管理,唯一识别移动用户所属国家。MCC共3位,中国是460. MNC(Mobile Network Code,移动网号码):用于识别用户所属移动通信网,2-3位。同一个国家内,如果有多个PLMN(Public Land Mobile Network,一般某个国家的一个PLMN对应一个MNC),可以通过MNC区分。 中国移动:00、02、04、07 中国联通:01、06、09 中国电信:03、05、11 中国铁通:20
IDFA、IMEI、OAID 是什么,区别是什么
IDFA (Identifier for Advertisers) IDFA 是苹果公司 (Apple) 提供的一个设备标识符,主要用于广告跟踪和营销分析。 平台:仅适用于 iOS 设备。 特性:用户可以重置 IDFA 或完全禁用广告跟踪。 用途:用于广告投放、用户行为分析和营销效果评估等。 隐私:由于用户可以选择限制广告跟踪,因此在隐私保护方面相对较好。 IMEI (International Mobile Equipment Identity) IMEI 是每个移动设备的唯一识别码,主要用于设备识别。 平台:适用于所有支持蜂窝网络的设备(包括 iOS 和 Android)。 特性:通常由设备制造商在生产时烧录到设备中,无法由用户修改。 用途:主要用于设备追踪、网络运营商管理和防盗等。 隐私:由于 IMEI 是固定不变的,并且会暴露设备的唯一身份,因此在隐私泄露方面存在较大风险。 OAID (Open Advertising ID) OAID 是中国信通院推出的一种广告标识符,主要用于替代国际广告标识符,以增强隐私保护。 平台:主要适用于 Android 设备,尤其是中国市场。 特性:用户可以重置 OAID 或选择退出广告跟踪。 用途:用于广告跟踪、用户分析和营销效果评估等,类似于 IDFA 在 iOS 上的用途。 隐私:设计上更加注重隐私保护,用户可以控制其使用情况。
区别总结 平台适用性: IDFA:仅用于 iOS 设备。 IMEI:适用于所有蜂窝网络设备。 OAID:主要用于 Android 设备,特别是中国市场。 用户控制: IDFA 和 OAID:用户可以重置或限制广告跟踪。 IMEI:用户无法更改,固定不变。 主要用途: IDFA 和 OAID:广告跟踪和用户分析。 IMEI:设备识别、防盗和网络管理。 隐私保护: IDFA 和 OAID:相对较好,用户有一定控制权。 IMEI:隐私保护较差,固定标识容易被追踪。 这三种标识符在各自的应用领域发挥着重要作用,同时随着隐私保护意识的增强,IDFA 和 OAID 提供的用户控制选项使得它们在广告和用户分析领域更为合适。