导图社区 CDA II(第一部分)
这是一篇关于CDA II的思维导图,主要内容包括:感知型企业的五个阶段,EDIT,数据采集,数据预处理,数据处理Python。
编辑于2025-09-07 21:29:25CDA II
感知型企业的五个阶段
敏捷-宏观分析 行为-预测用户行为 协同-技术与业务 分析应用-数据中台 自主决策-有业务流程自动化
EDIT
E探索-指标体系,监控看板(治理、管理、运营) D分析-宏微观分析,定性分析-外部因素分析、内部因素分析;定量分析-画像分群分析、趋势维度分析、漏斗洞察分析、行为轨迹分析和留存分析
I指导-策略优化过程 T工具-指标库、用户标签 (数据驱动型决策:根据业务目标制定指标体系,分析指标发现业务问题,宏观微观分析定位关键问题,制定优化方案,变量有效性测试)
指标体系
指标
(1)与业务相关的连续型变量的某个统计量,如金额、频次、数量 (2)指标库:根指标(业务方最关心)、组合指标(根指标与最常用的维度取值相结合)、派生指标(根指标和组合指标之间运算) (3)业务指标拆解方式:全链漏斗式、因子分解式 (4)业务指标的分层方式:战略层(为什么做、做什么)、管理层(做的如何)、操作层(如何做)
维度
(1)维度是分类型变量,也被称为统计维度、筛选条件
标签体系
分类: (1)从研究的客体划分:属性标签(人口统计信息)、状态标签(社会经济状态和社会资本)、协议标签(购买产品前需要与企业签订协议,协议与产品是有对应关系的,有时可反映用户所处的人生阶段)、行为标签(交易数据,基于账户的行为数据被称为动账数据,否则称为非动账数据,动账为实际产生交易金额的情况)、需求标签。 【五种类型由表及里,分析难度逐渐加大】 (2)从时态的角度划分:静态数据、动态数据(时点)、动态数据(时间) (3)从标签加工的角度划分:基础标签(用户的原生属性和派生属性)、统计标签(对交易数据进行汇总,如RFM-缺点在于用户ID统一认证)、模型标签(包含规则类模型标签-基于用户行为及确定的规则产生如定义交易活跃标签为距今90天内交易次数>3次、算法类模型标签、综合应用类模型标签) (4)从统计角度来划分:事实类标签、规则类标签、预测类标签 (5)从业务角度分类:分群标签、分层标签(优先级、重要性排序)
用户画像: (1)5W1H分析法,也称作6何分析法 (2)用户细分方法:层级细分(按用户带来价值划分)、用户群体细分(从多个维度探索用户需求,形成特定产品需求的群体)、双重细分(按资产规模和贡献潜力等战略维度细分)、先进细分(收集所有结构化和非结构化数据维度-可达上千种标签,支持用户一对一定制化方案) (3)事中验证(抽样验证、模型验证、交叉验证)、事后验证(A/B Test)
指标与标签
指标是用来定义、评价和描述特定事物的一种标准或方式; 标签是人为设定的、根据业务场景需求对目标对象运用一定的算法得到的高度精炼的特征标识 指标可以用来量化、标签一般不可以量化
数据采集
数据类型
按描述对象与时间关系分类: 时间序列数据-按时间顺序在不同时点收集某个个体的多期数据 截面数据-某个时点不同对象的调查数据 面板数据-一个观测群体多个时点的观察,在时间序列上取多个截面,偏学术型
按收集方式分类:实验数据、观测数据 按数据来源分类:原始数据、二手数据
概率抽样(又称为随机抽样)
误差: 抽样误差-源于抽样的随机性,可增大样本量控制范围 非抽样误差-包括登记性误差、测量偏差、响应偏差
按抽样方法划分为:简单随机抽样、分层抽样(又称类型抽样)、系统抽样、多段抽样 按抽取方式划分为:重复抽样、不重复抽样
最小抽样量公式:n=(可靠系数²乘以方差)/抽样误差²
非概率抽样(又称不等概率抽样、非随机抽样和主观抽样)
按抽样方式划分:偶遇抽样(方便抽样、自然抽样)、判断抽样(立意抽样、目的抽样)、定额抽样(分配抽样)、滚雪球抽样、空间抽样
概率抽样与非概率抽样之间的比较在于:操作难易、成本高低、时间长短;是否能用样本推断总体。
市场调研
(1)市场调研的阶段:案头研究、定性访谈、定量调研 (2)市场调研的方法:焦点小组座谈会、深度访谈、实验市场和产品试销、定点拦截访问、中心定点访问、网上调查问卷、电话调查访问 (3)问卷编码设计:单选题(定义一个变量,值为1、2、3等选项);多选题(采用二分法编码,选中的变量值为1,否则为0);排序题(定义6个变量,分别代表第一位到第六位)
数据预处理
错误数据识别与处理
直方图观察-回溯数据来源-修正或删除(在信息不足的情况下,对照其他信息源进行修正)
连续型变量离群值识别与处理
盒须图、散点图协同分析,平均值法直接计算-平均值+/-n倍标准差之外的数为离群值 (盖帽化-把连续型变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值) 分箱方法是常用的消除异常值、离群值、极端值的方法,分为等宽分箱(区间范围一致)、等深分箱(样本数量一样),也可以称为等距分箱、等频分箱。
分类型变量概化处理
(1)识别:条形图或饼图发现分类型变量稀有水平或错误值 (2)概化处理:可进行简单合并,事实合并(根据每个水平内被解释变量的均值、P值、Logit值的大小进行合并),算法合并(与分箱方法结合使用) 原则要求合并后大类样本占比5%,样本量50个以上
缺失值处理
缺失数据少于20%
连续型变量均匀分布-中位数、平均数填补 连续型变量非均匀分布-中位数填补 分类型变量-众数填补
20%-80%
填补方法同少于20%,但每个有缺失数据的变量需生成一个指示哑变量,参与后续建模。
大于80%
每个有缺失数据的变量需生成一个指示哑变量(0,1),参与后续建模,不再使用原始变量
时间序列数据噪音处理-简单移动平均法、加权移动平均法
连续型变量分布形态转换
百分位秩(聚类分析使用较多) Tukey正态分布打分-先百分位秩,再正态分布(聚类分析使用较多) 变量取自然对数(回归分析使用较多)
连续型变量中心标准化或归一化
中心标准化是主成分等分析方法默认的;A=(x-mean)/std 归一化处理只能将数据限制在特定范围(0,1)内,无法改变数据分布的形态。
变量降维(属于特征变换的操作)
连续型变量降维
降维的本质是去除冗余变量,保留主要变量
变量筛选
两个变量独立性检验
卡方检验
方差分析(含两个样本t检验)
相关分析
模型筛选法
决策树通过计算熵增益、基尼增益等指标筛选出高价值变量
线性回归中-向前回归法、向后回归法、逐步回归法
维度规约(减少数据的特征数目)
主成分分析PCA(线性降维)
本质: 将原来相关的变量重新组合成一组新的、相互无关的几个综合变量,得到的主成分不再具有可解释性。(常运用在综合打分、对数据进行描述、为聚类或回归等分析提供变量压缩、去除数据中的噪声)
基于主成分的冗余变量筛选: 统计检验方法(有监督筛选法)-考量纳入模型的变量是否对被解释变量有解释力度 变量聚类(无监督筛选法)-考量.....变量是否有强线性相关性
特点: (1)有多少个变量就会有多少个正交的主成分。 (2)主成分的变异(方差)之和等于原始变量的所有变异(方差)之和。 (3)前几个主成分的变异(方差)可以解释原多元数据中的绝大部分变异(方差)。 (4)如果原始变量不相关,即协方差为0,则不需要做主成分分析。
主成分选取原则为单个主成分解释的变异(特征值)不应该小于1(也就是方差大于1),并且选取的前几个主成分累计解释的变异能够达到总体的80%~90%。 一般而言,每个主成分都需要与之前的主成分正交(完全不相关,协方差为0),并且能够最多地解释数据中剩余的变异性。因此在分析中从第一个主成分到最后一个主成分的方差依次递减。 主成分的方差等于第K个主成分的特征根 大部分软件的主成分分析默认使用相关系数矩阵而非协方差矩阵 PCA可以通过奇异值分解、特征值分解(将原随机向量的协方差阵变换成对角形阵)实现
因子分析(主成分分析的延伸)
因子旋转法,尽量加大主成分在原始变量上权重的差异性,提高主成分的可解释性;将变量变成各因子的线性组合 (1)方法包含极大似然法、主成分法; (2)计算步骤:估计因子载荷矩阵——进行因子旋转——估计公共因子(因子得分) (3)因子旋转方法:方差最大正交旋转、斜交旋转、正交旋转,(相交旋转不属于) (4)假设:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。(都不相关)
重要概念: (1)因子载荷:因子载荷a(im)的统计意义是第i个变量与第m个公共因子的相关系数,表示X(i)依赖F(m)的份量(比重) (2)变量共同度:一个原始变量在所有因子上的因子载荷平方和,代表所有因子合起来对该原始变量的变异解释量。(其值接近1,则说明因子分析的效果不错)共同度低的原始变量与其他原始变量的相关性很低,显示出较强的独特性 (3)方差贡献:公共因子F(m)的方差贡献就是在所有变量中该公共因子的因子载荷平方和,用来衡量公共因子F(m)能够提供多少信息。 因子分析是构造合理的聚类模型的必然步骤,也是在建立分类模型时重要的维度分析手段。在这方面,主成分回归法只是在建模时间紧张和缺乏业务经验情况下的替代办法。
检验方法: (1)KMO检验,取值为0和1之间,当所有变量间的简单相关系数平方和远大于偏相关系数平方和时,KMO值越接近1 (2)相关系数矩阵 (3)反映影像相关矩阵
变量聚类(本质是主成分分析的应用)
多用于构建可解释类预测模型前的特征处理,如线性回归、逻辑回归、决策树等,也可以用于聚类模型
奇异值分解(主成分分析在非方阵下的推广)
广泛用于推荐算法,也可以用于缺失值填补
主成分分析与因子分析的异同点
过程:主成分分析是组合的过程,因子分析是分解的过程 解析性:因子分析得到的因子对比主成分分析得到的主成分具有较强的可解释性 处理:主成分分析把主成分表示成几个变量的线性组合,因子分析把变量表示成各因子的线性组合 相同:都是数据降维(数据简化)技术;计算后得到的主成分、因子都是不相关的,也就是相互正交
分类型变量降维-概化处理
实际操作中分类型变量往往先进行水平规约,然后转换为连续型变量(该方法被称为WoE转换)进行降维。
WoE转换
一种用数值代替非数值的操作,实现分类型变量水平规约为连续型变量
数据问题
单变量数据问题
连续型变量异常值 分类型变量含有稀有水平或错误值 缺失值、单一值 时间序列的噪音值
单变量数据分布问题
修改连续型被解释变量的数据分布 修改输入的连续型变量的数据分布
两个变量间的关系问题
两个连续型解释变量之间的高度线性关系 连续型解释变量和连续型被解释变量非线性关系线性化 连续型解释变量和二分类被解释变量Logit之间非线性关系线性化
数据处理Python
数据读取
pandas数据结构: DataFrame(二维数据表),包含多个变量(列)和样本(行) Series(一维结构的序列),包含指定的索引信息,可以被视作DataFrame中的一列
(1)读取文件:pd_read_csv读取指定路径下的文件 (2)读取指定行和指定列,使用参数norws(行)、usecol(列) (3)使用分块读取,使用参数chunksize(指定分块读取的行数) (4)指定预先定义的缺失值,使用参数na_values (5)指定编码形式读取,使用参数encoding
数据整合
(1)选择单列:直接用列名选择列;使用iloc方法基于位置的索引选择行、列;使用loc方法基于标签的索引即行名或列名,选择行、列 (2)横向连接包含内连接、外连接(包括左连接、右连接和全连接)
数据清洗
(1)查看重复数据的方法为duplicated (2)处理重复数据的方法为drop_duplicates (3)脏数据包含:重复数据、错误数据、缺失数据。 而交叉数据是交叉验证过程中使用的,不属于脏数据。