导图社区 CDA II(第三部分)
这是一篇关于CDA II的思维导图,主要内容包括:时间序列分析,聚类模型,运筹优化模型,数据治理,常见应用题,业务流程分析。
编辑于2025-09-07 21:34:08CDA II
时间序列分析
建模要求序列满足宽平稳
平稳性保证了时间序列数据都出自同一个分布,这样才可以计算均值、方差、延迟k期的相关系数等。
均值恒定(不随时间变化,对于任何时间点,均值是一个常数)
自协方差函数仅取决于时间差(与具体时间点无关)
预测方法/模型
简单指数平滑-适用于没有趋势和季节性成分,一次指数平滑:L
Holt指数平滑-适用于含有趋势但不含季节变动的时间序列数据,二次指数平滑:L+T
Winter指数平滑法-同分解法,三次指数平滑:L+T+S
分解法-适用于含有趋势、季节变动和随机波动成分
效应分解法
(1)原理:把时间序列分解为趋势效应和周期性效应,并分别使用曲线拟合 (2)效应组成部分:趋势性、周期性/季节性、随机性,前两个属于时间序列中的稳定部分,可以用来预测未来 (3)效应组合方式:加法模型、乘积模型
非平稳时间序列模型
ARIMA模型
建模步骤五步法: (1)平稳化-通过差分的手段,对非平稳时间序列数据进行平稳化处理 (2)定阶-确定ARIMA模型的阶数p、q (3)估计:估计未知参数 (4)检验:检验残差是否是白噪声序列(对模型进行评估) (5)预测:利用模型预测
差分运算的实质是使用自回归的方式提取确定性信息,1阶差分即当期观测减前一期的观测构成差分项。 若序列蕴含着显著的线性趋势,1阶差分就可以实现趋势平稳;若序列蕴含着曲线趋势,通常高阶(2阶)差分就可以提取曲线趋势的影响。
白噪声检验: 常用于时间序列模型评估,若对应的残差序列是白噪声序列,则说明模型已经宠粉提取了数据信息,否则则说明模型没有充分提取数据信息
ARIMA(p,d,q)模型,p为自相关p阶AR模型,d为d次差分,q尾滑动平均q阶MA模型
平稳时间序列模型
(1)原理:根据数据扰动项之间的相关性结构构建预测模型 (2)识别模型阶数:AIC或BIC准则,两个统计量都是越小越好
自回归模型AR(p)
(1)用过去p期的值预测当前值 (2)某期观测值Xt的期望与系数序列α有关,方差有界 (3)自相关系数(ACF)拖尾,且值呈现指数衰减(时间越近的往期观测值对当期的观测的影响越大) (4)偏自相关系数(PACF)p阶截尾
平稳性判别法为特征根判别法、平稳域判别法 d阶截尾:偏自相关系数PACF在前d阶会显著非零,d阶之后机会为零
移动平均模型MA(q)
(1)用过去q期的误差项预测当前值 (2)t期系统扰动项et的期望为常数,方差为常数 (3)自相关系数(ACF)q阶截尾 (4)偏自相关系数(PACF)拖尾
自回归移动平均模型ARMA(p,q)
(1)结合AR和MA,认为序列受前期观测数据与系统扰动的共同影响 (2)Xt的期望值与系数序列α有关,方差有界 (3)自相关系数ACF拖尾 (4)偏自相关系数PACF拖尾
其他概念
严平稳时间序列:在一个时间序列中,各期数据的联合概率分布于时间t无关; 平稳序列:一个独立同标准正态分布的随机序列 纯随机序列:一个平稳时间序列的序列值之间没有相关性,数据前后没有规律,无法挖掘有效信息; 自相关函数:描述任意两个时间间隔为k的时间序列的相关系数 偏自相关函数:描述时间序列任意两个时间间隔k的时刻 在定阶过程中,若ACF和PCF均呈现出拖尾的特征,常用AIC准则来确定模型的阶数
聚类模型
(1)差异-相似度的衡量,不同算法有不同的角度;聚类算法而言,差异经常使用距离来量化。 (2)层次聚类和Kmeans聚类常使用欧式距离,使用聚类算法的前提是样本内无缺失值。 (3)聚类算法常用于公司建立用户行为画像,聚类模型在剔除不相关变量时依赖分析师的经验和维度分析
聚类是一种无监督方法,评估聚类模型优劣的主要标准有轮廓系数、平方根标准误差、R²、ARI (1)轮廓系数S(i)的值域为(-1,1),其值越大表示聚类效果越好 (2)平方根标准误差RMSSTD,值越小,说明群体内(簇内)个体对象之间的相似程度越高,聚类效果越好 (3)R²越大,说明群内(簇内)的相异性越高,聚类效果越好 (4)ARI(A,B)=0,则划分A和B是独立的,ARI(A.B)=1,则划分A和B是完全相同的,ARI值越大,聚类效果越好
亲和图
层次聚类
原理:把n个样本视作n类,使用观测之间的距离公式计算两两观测之间的相似性,把距离较小的两类合并为一个新类,再按某种方法计算类与类之间的距离,然后继续将距离较小的类合并到新的大类,重复上述过程,直到所有的样本都分到一个类。
类与类之间距离的衡量: (1)重心法(平均法) (2)全联接法(平均联接法) (3)Ward最小方差法(又称离差平方和法)
Kmeans聚类(也被称为K均值聚类)
原理:计算样本点与类簇质心的距离,与类簇质心相近的样本点被划分为同一类簇,算法效率较高,伸缩性较好,但是K值需要事先确定。 K-means算法需要对数据进行标准化和预处理
计算4个步骤: (1)设定K值,确定聚类数,软件随机分配聚类中心所需的种子 (2)计算每个观测到类中心的距离,并分成k类, (3)把K类中心(均值)作为新的中心,重新计算距离 (4)迭代到收敛标准为止。
DBSCAN聚类(一种密度聚类方法,可以处理具有噪声的数据)
聚类事后分析:决策树
(1)决策树算法在机器学习算法内被划分为有监督的学习算法 (2)可以分为:基于熵的ID3决策树和C4.5决策树,以及基于基尼增益的CART决策树
聚类与分类
(1)聚类的典型算法包括K-means、DBSCAN、层次聚类、光谱聚类 (2)分类的典型算法包括决策树、贝叶斯、逻辑回归 (3)分类模型的预测能力由于聚类模型的预测能力
运筹优化模型
优化模型的三个组成部分:目标函数(要优化的函数,最大或最小化)、决策变量(影响系统性能的可控变量)、约束(线性不等式或等式,非负性约束)
线性规划(Linear Programming)
目标函数-最小化或最大化线性函数
约束条件:Ax≤b,x≥0
可行解为满足所有约束的x;最优解为使目标函数最优的可行解;可行域为凸集,最优解必在顶点(基可行解)取得。
求解方法
单纯形法-通过顶点迭代寻找最优解;而改进单纯形法减少迭代累计误差的同时也提高了计算精度,是一种经济的算法。
内点法-从可行域内部逼近最优解
对偶理论-若原问题有最优解,则对偶问题也有,且目标值相同。
整数规划(ILP)
常见求解方法-分枝定界法、割平面法、隐枚举法
三种基本类型:(自变量取值要求必须为整数) (1)全整数规划AII(纯整数规划)-正整数,0,负整数 (2)混合整数规划MIP-有整数有实数,如是否新建生产线和分配多少原材料到各生产线 (3)0-1整数规划(二进制整数规划)-只有0和1,0为不选,1为选
特殊非线性规划-二次规划
目标函数为二次函数,约束条件为线性函数,变量类型为连续实数 二次型表示n个变量的二次多项式,即在一个多项式中,未知数的个数为任意多个,但每一项的次数都为2的多项式。
常见求解方法-拉格朗日法、内点法、椭球法、梯度投影法
正定矩阵: 对任意一个非零实向量x,都使二次型f(x)=X^T(AX)>0成立,则称f(x)为正定二次型,矩阵A被称为正定矩阵 对任意一个非零实向量x,都使二次型f(x)=X^T(AX)≥0成立,则称f(x)为半正定二次型,矩阵A被称为半正定矩阵
数据治理
驱动因素-内部发展需要;外部监督需要
数据治理-数据战略与规划、组织结构与职责、管理流程与管理制度
数据管理
数据模型管理-概念模型、逻辑模型、物理模型 元数据管理 数据标准管理 数据质量管理(正确性、完整性、一致性) 数据安全管理 数据生命周期管理 数据服务管理 主数据管理
数据分类
主数据:关于业务实体的数据,描述组织内的“物” 元数据:描述数据的数据(包含名称、长度、类型),帮助理解、获取、使用数据,分为技术元数据、业务元数据等,数据元是属于元数据的一个概念。 参考数据:将其他数据进行分类或进行目录整编的数据,参考数据值是几个允许值之一
数据建模基础:关系模型三范式3NF(每个属性的值唯一,不具有多义性;每个非主属性必须完全依赖整个主键,而非主键的一部分;关系模式中不存在传递依赖)依赖主键且独立
概念模型CDM-描述预设范围内的业务需求,以实体-关系(E-R)理论为基础,通过主题域形式描述概念化的结构,最关心实体之间的关系 逻辑模型LDM-详细的业务解决方案,对概念模型的进一步细化,描述实体、属性及实体关系,只包含关键数据属性,检查数据类型是否符合范式 物理模型PDM-详细的技术解决方案,将逻辑模型转换为数据库的设计表达,设计数据库中的表、数据类型、字段长度等信息。
数据仓库的特征: (1)面向主题 (2)数据集成 (3)数据相对稳定(进入数据仓库后,一般很少修改数据,更多是查询的操作,及定期加载和更新) (4)数据随时间变化 数据仓库中的信息不是从各个业务系统中简单提取出来的,而是经过一系列加工、整理和汇总,必须消除源数据中的不一致性 数据集市为按照不同的业务需求对数据仓库中的数据进行进一步提取和整合 OLAP系统响应时间合理,OLTP系统对响应时间要求非常高
ETL是数据提取(Extract)、清洗(Cleaning)、转换(Transform)、加载(Load)的过程
数据应用-监管报送应用、精准营销应用、产品创新应用
常见应用题
混淆矩阵和ROC曲线
(1)横坐标为假阳性率(1-特异性),纵坐标为真阳性率(敏感性) (2)假阳性率(也叫假正率,1-特异性)即真正的假样本中有多少被预测为真,计算公式=C/(C+D), (3)真阳性率(也叫召回率、查全率、灵敏度、敏感性)即真正的正样本中有多少预测正确(即预测为正样本),计算公式=A/(A+B) (4)精确率(也叫查准率)即预测的正样本中有多少预测正确(即真正的正样本)A/(A+C), (5)AUC指标=ROC曲线下的面积
方差分析表
(1)总平方和=组间平方和SSA+组内平方和SSE (2)回归自由度等于自变量的个数(一元线性回归模型自变量只有1个) (3)均方MS=平方和/自由度,可对应求组内即组间的自由度 (4)F值=组间均方/组内均方
自由度
单因素方差分析 总自由度=n-1,组间自由度k-1,组内自由度n-k
回归分析 总自由度=n-1,回归自由度p,残差自由度n-p-1
业务流程分析
价值流程图
(1)价值流程图是一种用来描述物流和信息流的形象化工具,着眼于创造价值、缩短时间
对比测试
(1)转换漏斗 (2)对比测试的目的:判断哪个更好;计算收益 (3)对比测试的典型过程:确定目标——开始做试验——借助工具,收集试验数据——让数据说话,校验试验结果——下一次迭代