导图社区 数学建模
数学建模是通过计算得到的结果来解释实际问题,并接受实际的检验,来建立数学模型的全过程。当需要从定量的角度分析和研究一个实际问题时,人们需要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用数学的符号和语言来表述,从而建立数学模型。自己在打数学建模时候的感想与真理,从上到下就是建模的具体流程,感觉还是比较有用的。
编辑于2024-06-23 16:00:25数学建模
数据预处理
数据标签
数据标签相当于对定类变量的文本进行修改
数据编码
数据编码是将变量数值再次进行编码,可进—步浓缩或整合原始数据
虚拟变量装换
多分类变量是不能直接参与到回归计算中。对于有序定类变量,可以将它进行数据编码,利用数字来表示分类变量的有序等级;但是对于无序定类变量,需要将其转变为虚拟变量来处理。
哑变量
优先推荐
独热编码
具有共线性
异常值处理
异常值可能是与整体数据情况偏离很大的数据点(常见的3σ准则),也可能在超过某个不合理范围的数据点,在分析中应该首先排除掉异常值,该方法可检测变量中的异常值,并对异常值进行置空或者是填补为其它有效值。
画图
箱线图
处理方式
离散型
条件平均值填充
以其中具有某种相同属性的子样本的平均值来插补
比如统计某初中全部学生50米短跑的成绩过程中,若某一名初二学生数据丢失,考虑到不同年龄身体机能和接受的体能训练强度的不同,我们更倾向于采用全体初二学生的平均成绩替代其成绩,而非所有三个年级学生的平均成绩。
连续型
线性插值
最近邻插补
借助与缺失样本最邻近(相似度最高)的K个样本的属性值,加权平均后插补。
当K=1时,最近邻插补法又被称为热卡填充法
如某地某年GDP数据缺失,则可以用当地前后K年GDP值的平均值为其赋值。如果数据是二维或二维以上的,则需要先测算出所有样本两两之间的相似度距离,找到与其“最像”的K个样本,再计算它们的加权平均值。
如在上面GDP的例子中,如果认为缺失年份的上一期数据对其的参考作用最大,下一期在其次,那么可以人为地分别赋权0.6和0.4,以示其相对重要性,再令缺失值在数值上等于”上一期GDP×0.6+下一期GDP×0.4”
加权方式为层次分析+熵权法
多重插补法
https://blog.csdn.net/weixin_50918736/article/details/124952161
拉格朗日插值法
个案处理
个案处理即按要求识别到满足条件的样本,并对其进行标记或者剔除。筛选条件包括样本内相同数字出现X%(见左图)、样本内缺失比例出现X%(见右图)。
数据标准化
数据标准化包括去量纲化和一致化。去量纲化是指不同指标之间由于量纲不同以致于其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。
注意正向指标与负向指标应该转向
min-max标准化
样本均衡
进行分类任务时,如果因变量不同类别的样本数量不均衡时,会严重影响模型训练。
数据降维
数据降维是采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中,即将多列数据融合为更少列数据,且这些少列数据能够保留原数据的绝大部分有效信息。
主成分降维
一般不降维
时间数据滑窗转化
时序数据滑窗转换用于将时间序列数据转为回归数据,简单地说,就是把一个单序列的数据变为X->Y的回归数据。如下图所示,步阶为2代表2个X(步阶多少就有多少个X),简单地说,就是用第1,2天的数据预测第3天,用第2,3天的数据预测第4天,以此类推。此种形式的数据进行回归就是时间序列预测问题。
差异性分析
参数检验
单样本T检验
单样本T检验用于比较样本数据与一个特定数值之间的差异情况,同时要求数据呈现正态性分布。
配对样本T检验
配对样本T检验用于比较配对的连续变量X1与连续变量X2之间的差异情况,同时要求配对变量差值呈现正态性分布。
独立样本T检验
用于两组定量数据(函数)是否呈现差异性
单因素方差分析
事后多重比较
方差分析只能判断各总体平均数间是否有差异,多重比较可用来进一步确定哪两个平均数间有差异,哪两个平均数间没有差异。
双因素方差分析
三因素方差分析
多因素方差分析
非参数检验
卡方检验
单样本Wilcoxon符号秩检验
配对样本Wilcoxon符号秩检验
独立样本MannWhitney检验
多配对样本Friedman检验
Friedman检验用于分析多组样本数一致的定量变量之间有无明显差异
多独立样本Kruskal-Wallis检验
多独立样本Kruskal-Wallis检验用于定类字段(X)与1个或1个以上的定量字段(Y,不需要正态分布)之间的差异性研究
卡方拟合优度检验
卡方拟合优度检验是基于卡方统计量用于判断期望频数与观察频数是否有显著差异。
描述性分析
频数分析
出现多少次
交叉分析
用于分析两两分组变量之间的交叉分布,然后比较各组的分布状况,以寻找变量间的关系。
描述性分析
描述性统计分析是对调查总体所有变量的有关数据进行统计性描述,包括数据的集中趋势与离散趋势。
正态性检验
反映出样本是否具有总体代表性,抽样是否存在系统偏差
综合评价
数据包络分析(DEA)
用于分析各样本的投入和产出是否存在冗余或不足的情况
用于调节产业投入以达到最佳输出
TOPSIS
熵权法与层次分析法相结合
层次分析法
记得构建
熵值法
耦合协调度
耦合协调度模型用于分析事物的协调发展水平。协调度指耦合相互作用关系中良性耦合程度的大小,它可体现出协调状况的好坏。
介于有用和没用之间。先放着
灰色关联分析
反映了曲线间的关联程度
相关性分析
Pearson相关性分析
分析适用于服从正态分布的两定量变量
Spearman相关性分析
定量变量或定序变量两两之间的相关分析
Kendall's tau-b相关性分析
定序变量两两之间相关分析,其不要求变量满足正态分布条件
Cochran's Q检验
用于非参数差异性检验的一种,适用于分析多个样本(样本数一致)差异性的统计检验
用于三个字段以上的数据的总体差异性的统计检验
只适用定类字段
Kappa一致性检验
用于定类数据的相关性检验
Kendall一致性检验
Kappa系数与皮尔逊一样是比较两项之间的相关性;而Kendall系数用于判断总体(全部数据)的相关性,适用于数据是多列相关的等级资料,即可是k个评分者评(N)个对象,也可以是同一个人先后k次评N个对象。
组内相关系数
组内相关系数(ICC)是衡量和评价观察者间信度和复测信度的信度系数指标。通常可以用于问卷调查中评价一个对象对多个样本在一段时间的重测信度,或者判断一批对象对多个样本的一致性检验。
简单预测模型
VIF变量共线性表现
强共线性
线性回归(最小二乘法)
弱共线性
岭回归(Ridge)
分层回归
在于多变量且有重点
逻辑回归
逻辑回归是研究二分类因变量观与一些影响因素之间关系的一种多变量分析方法。
有序逻辑回归
分层聚类
按照某个特定标准把一个数据集分割成不同的类或簇
二分类概率单位回归(Probit)
逻辑斯蒂回归
做二分类(1/0)任务,并给出相应概率
优点
1.直接对分类可能性进行建模,无须事先假设分类
2.不是仅预测出分类“类别”,而是得到近似的概率预测,这对许多需要概率辅助决策的任务很有用
3.逻辑回归的目标函数(Sigmoid)是任意阶可导的凸函数,有很好的数学性质,在许多数值优化算法都可以直接用于求最优解。
统计建模
主成分分析(PCA)
主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维
典型相关分析
典型相关分析是研究多个变量和多个变量之间的线性相关关系,能够揭示出两组变量之间的内在联系
逐步回归
在回归分析的基础上,通过剔除不太重要的变量来进行变量的筛选。
线性判别
线性判别的原理是将样本投影到一条直线上,使得同类样本的投影点尽可能接近,不同样本的投影点尽可能远离
其中线性判别(LDA)也常用于数据降维,可在数据处理的降维部分使用。
计量经济模型
时间序列分析
单位根检验(ADF)
一般在研究一段时间序列的时候,第一步都需要进行平稳性检验
差分分析
消除数据波动使数据趋于平稳,将非平稳序列转化为平稳序列。
(偏)自相关分析(pacf/acf)
自相关(ACF)是指序列与其自身经过某些阶数滞后形成的序列之间存在某种程度的相关性,而偏自相关函数(PACF)是在其他序列给定情况下的两序列条件相关性的度量函数。一般来说(偏)自相关用于时间序列分析AR、MA的p、q进行定阶。
格兰杰因果检验
用于研究两组数据的因果关系,即检验一组时间序列是否会引起另一组时间序列的变化的原因。
季节性ARIMA模型
加入了季节
机器学习分类
LightGBM分类
BP神经网络分类
lstm
机器学习回归
LightGBM回归
BP神经网络回归
规划求解
遗传算法(GA)
粒子群算法(PSO)
模拟退火算法(SA)
研究模型可视化
词云图
用于突出文本数据中出现频率较高的“关键词“
趋势相关分析
用于分析因素之间发展趋势的相似程度。
P-P图/Q-Q图
相关性分析
连续变量相关性分析
两两比对
Pearson相关系数(数据满足正态分布时使用)
Spearman相关系数(数据不满足正态分布时使用)
整体内部
Bartlett的检验(检验整体是否呈现相关性)
KMO检验(检验整体呈现相关性程度)
组内相关系数(ICC)(检验整体是否呈现相关性)
定类变量相关性分析
两两比对
Kendall's tau-b等级相关系数(要求数据为有序的定类变量)
kappa一致性检验(有序、无序均可)
整体内部
kandall和谐系数
组内相关系数(ICC)
差异性分析
用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法
单样本
呈现正态分布
单样本T检验
不呈现正态分布
单样本Wilcoxon符号秩检验
配对样本
呈现正态分布
配对样本T检验
不呈现正态分布
配对样本Wilcoxon符号秩检验、Nemenyi检验
多配对样本
呈现正态分布
方差分析
不呈现正态分布
Friedman检验
独立样本
呈现正态分布
两独立样本T检验
多独立样本方差分析
不呈现正态分布
两独立样本MannWhitney U检验
多独立样本Kruskal-Wallis检验
多独立样本
呈现正态分布
多独立样本方差分析
不呈现正态分布
多独立样本Kruskal-Wallis检验
事后多重分析
呈现正态分布
事后多重分析
不呈现正态分布
Nemenyi检验两两比较
定类变量差异分析
配对
卡方检验、配对卡方检验
多组别
卡方检验
预期比例与实际比例
卡方拟合优度检验