导图社区 频率学派统计分析框架
这是一个关于频率学派统计分析框架的思维导图,频率学派(Frequentist)是统计学中的一个重要学派,其理论和方法在统计学和数据分析领域有着广泛的应用。
编辑于2024-09-04 17:21:13频率学派统计分析框架
基本概念
总体
样本
样本容量
参数
用来描述总体特征的概括性指标,如总体均值、总体方差、总体比例等。
统计量
用来描述样本数据特征的概括性指标,如样本均值、样本方差、样本比例等。
描述集中趋势的统计量
均值mean
中位数median
众数mode
描述离散程度的统计量
极差range
反映离散程度的最简单的统计量,但不能反映中间数据的离散性,信息太少
方差variance
反映每个样本数据偏离其样本均值的平均程度,是反映离散程度的最重要统计量
标准差standard deviation
标准差具有与观察值数据相同量纲,意义明确,更为常用
对数据进行标准化处理
均值为0,标准差为1
变异系数coefficient of variation
变异系数是标准差与均值之比,一般用百分比表示,反映了数据偏离其均值的相对偏差,是无量纲的相对测度
标准误standard error
反映样本均值偏离总体均值的平均程度,在用样本均值估计总体均值时用来测度平均偏差又称均值的标准差(Standard deviation for mean)或均值标准误(S.E. of Mean)
描述分布形态的统计量
偏度skewness
描述变量取值分布形态对称性的统计量,其绝对值越大,表明偏斜程度就越大
峰度kurtosis
描述变量取值分布形态陡缓程度,即图形的尖峰程度
描述性统计分析
能够使分析者掌握数据的基本统计特征,把握数据的总体分布形态。其结论是统计推断和数据建模的重要基础。
频数分析
频数分布表
统计图
常用描述统计量的计算
探索性数据分析Exploratory Data Analysis,EDA
从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法。 对于在探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行证实分析,以确定规律是否正确。
目的: 1.检查数据是否有错 2.获得数据分布特征 很多统计学模型对数据的分布有要求 3.对数据进行初步观察以发现一些内在规律
M-估计量M-estimators
是中心趋势的稳健性极大似然估计量。对于长尾对称分布或数据有极端异常值时,利用稳健估计量估计总体均值要比样本均值或中位数有更好的稳定性。
茎叶图stem-leaf plot
茎叶图是探索性分析统计图,她将数据分成两部分:整数部分和尾数部分,整数部分形成图的茎,尾数部分形成图的叶。茎叶图可非常直观地显示数据的分布范围和形态,类似于横向的直方图,但能保留每个原始数据的信息。
在分析小样本时优势明显
箱图boxplot
又称箱线图、盒状图等,是用数据的最大值、最小值、中位数和上、下四分位数这5个特征指标制成的,反映原始数据分布状况的探索性分析统计图形。
反映多变量关系的交叉列联表分析
主要用于分析多变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。
行、列变量均为名义变量时
Pearson卡方统计量
Pearson卡方统计检验是检验行、列定类变量之间是否相关的最常用方法。
其他相关性检验的测度系数
从Pearson卡方统计量派生出来的,即希望将样本量、行列数对卡方的影响减少到最小。
行、列变量均为定序变量时
行、列变量分别为名义变量和数值变量时
其他方法
统计推断statistical inference
参数检验
参数估计
通过样本观测值来统计推断总体中的未知参数
点估计point estimation
计算某个适当统计量的观测值作为未知参数的估计值
区间估计interval estimation
在给定的置信水平1-α下,用两个统计量的观测值所确定的100(1-α)%置信区间来估计未知参数的大致范围。
假设检验,亦称显著性检验
参数检验
已知总体的分布类型,对其未知的总体参数作假设检验,主要讨论总体参数(均值、方差、总体率等)的检验
在利用样本信息去检验零假设时,由于样本所包含的信息较分散,一般需要构造一个检验统计量去进行判断。在假设检验中,将事先给定的小概率α称为显著性水平。对于一次抽样的样本值,计算检验统计量的观测值发生的概率,即该检验统计量在某个特定的极端区域取值的概率,称为显著性概率P值。
T检验,是指以服从t分布的检验统计量T为基础的参数检验
单样本均值的t检验
主要适用于样本所在的总体均值与已知总体均值的比较,推断是否存在显著差异 当样本量较大时,不用考虑适用条件;当样本量较小时,要求总体和样本都服从正态分布,可作正态性检验或Q-Q图、P-P图
两独立样本均值的t检验
两总体方差σ1平方、σ2平方是否相等是决定t统计量选择的关键。(自由度计算公式也不同) 因此有必要通过有效的方式对方差齐性进行统计检验。
配对样本均值的t检验
在配对设计下所得的两个配对样本数据不是相互独立的,不能看作两个独立总体的样本进行统计处理。作配对比较时,将先求出配对对子数据的差值d,并将差值d看成是一个新的总体的随机样本,也需服从正态分布,而差值的变化可以理解为大量、微小、独立的随机因素综合作用的结果。进而用单样本t检验来解决。
方差分析analysis of variance,ANOVA法,是对试验数据进行多个正态总体均值比较的一种基本统计分析方法,它是对全部样本数据的差异(方差)进行分解,将某种因素下各组数据的之间可能存在的因素所造成的系统性误差,与随机抽样所造成的随机误差加以区分比较,以推断该因素对试验结果的影响是否显著。 目的就是探讨不同因素不同水平之间试验指标的差异,从而考察各因素对试验结果是否有显著影响。
单因素方差分析
构造F检验统计量
方差齐性检验
方差齐性是方差分析的前提要求。单因素方差分析中,方差齐性检验采用了方差同质性检验的方法,用Levence F检验方法进行方差齐性检验。
多重比较检验
如果因素确实对观测变量产生了显著影响,表明因素不同水平的各总体均值不全相等。此时,应进一步考察各总体均值之间到底哪些相等,哪些不等,则需采用多重比较检验的方法。
也分方差齐性成不成立两论
先验对比检验
这种事先指定均值的线性组合,再对该线性组合进行检验的方法就是各组均值的先验对比检验。 通过先验对比检验能更精确地掌握各水平间或各相似性子集间均值差异程度。
适用于随机区组设计randomized block design(配伍组设计),不过这里不可以分析处理因素与区组因素的交互作用
多因素方差分析
固定因素与随机因素
嵌套因素与交叉因素
适用于析因设计factorial design,其数学模型是既有主效应又包括交互效应的全因素full factorial模型。
适应于正交设计orthogonal design,是一种科学地安排与分析多因素试验的试验设计法,它通过利用现成的正交表来选出代表性较强的少数试验条件,并合理安排试验,进而推断出最优试验条件或生产工艺。尤其当析因设计要求的样本量太大,不好做时。不过正交设计通常不太适合实验数据变异较大的问题研究。
适应于二阶段交叉设计cross-over design,又称2x2交叉设计,是一种特殊的自身前后对照试验设计,要求药后效应相同或无药后效应。
非参数检验
对分布类型未知的总体作假设检验,主要包括总体分布形式的假设检验、随机变量独立性的假设检验。 非参数检验尽量从数据本身来获得所需要的信息,是不依赖总体分布的统计推断方法,是指在总体不服从正态分布或者分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。但无法处理变量间的“交互作用”。
卡方检验Chi-Square Test,也称卡方拟合优度检验,用于检测观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布样本的问题。
单样本K-S检验,是一种拟合优度的非参数检验方法,它是利用样本数据推断其总体是否服从指定的理论分布,一般来说它是比卡方检验更精确的非参数检验法,适用于探索连续型随机变量的分布。
二项式检验,是指数据涉及离散性变量,并在每次试验中只出现这两种独立且相互对立的可能性结果的一种非参数检验分析方法。
单样本随机性的游程检验
游程run是一个重复出现的字符串片段,同类游程出现的次数称为游程数。
两独立样本非参数检验
曼-惠特尼(Mann-Whitney)U检验法,又称秩和检验法。主要适用于检验至少是定序测度数据的两个独立样本所在总体是否有显著差异。其主要通过对两组样本平均秩的计算来对总体分布的差异进行推断。秩rank是将变量值数据按照升序排序后的名次。每个变量值相对于整个变量值系列会有相对应的唯一名词,该名次就是变量值的秩。
K-S检验法,这里是以变量值的秩作为分析对象,而非变量值本身。主要适用于大样本情形下的总体分布比较的检验
Moses极端反应检验法,主要适应于实验条件导致两种不同方向的极端反应。
W-W(Wald-Wolfwitz)游程检验法,这里是用来检验两独立样本来自的两总体分布是否存在显著差异。
多独立样本非参数检验
Kruskal-Wallis的H检验,是方差分析的非参数检验方法,也是两独立样本的曼-惠特尼U检验的推广,用于检验多个总体的分布是否存在显著差异。
中位数检验(Median检验),检验效能在三者中最低。
J-T(Jonckheere-Terpstra)检验,又称有序选项检验,适用于连续性资料或有序分类资料,尤其是有序分类资料
两配对样本非参数检验
符号检验,主要通过两组配对数据差值的符号来推断总体分布是否有显著差异。符号检验只注重配对样本中符号差值的变化,并没有注重符号差值变化的幅度,因此该检验法对数据的利用并不充分,检验效能较低,精度较差。该方法只适用于数据类型为等级数据或不清楚数据总体分布的心态类数据的分析,对于连续型数据资料则最好不要使用。
两配对样本的符号检验采用二项分布检验:检验差值为正的个数S+和差值为负的个数S-的分布是否服从p=0.5的二项分布。
Wilcoxon符号秩检验
McNemar检验,属于变化显著性检验,主要对比两组分类数据之间的显著差异性,只适应于二分类资料。
Marginal Homogeneity检验法,适用于资料为有序分类的情况。
多配对样本非参数检验
Friedman检验,适用于数值型数据的分析。
Kendall协同系数检验,又称Kendall's W检验,是与Friedman检验相结合的非参数检验方法,常常用于分析评判者的评判标准是否一致公平。
Cochran Q检验,是两个配对样本McNemar检验法的推广,只适用于二值变量(其值只取0、1)。
相关分析
散点图 定性判断
正线性相关
负线性相关
非线性相关
不相关
曲线相关
相关系数,用来度量随机变量X与Y之间线性相关关系密切程度的统计指标
计算样本相关系数
|r|=1
0<|r|<1
r=0
对两总体间的相关关系进行检验推断
Pearson相关系数,用来度量两数值型变量间的线性相关性
Spearman相关系数,又称等级相关系数,用来度量定序变量(或等级变量)间的线性相关关系。它是利用两变量的秩rank大小进行线性相关分析。
Kendall τ相关系数,用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情形,这种指标采用非参数检验方法测度变量间的相关关系。
偏相关分析,也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采用的工具是偏相关系数(净相关系数)。当控制变量个数为1时,偏相关系数称为一阶偏相关;当控制变量个数为2个时,偏相关系数称为二阶偏相关。
计算样本的偏相关系数
对两总体间净相关的显著性进行检验推断
回归分析
线性回归分析
一元线性回归模型,又称简单回归模型
多元线性回归方程
多元回归模型的进一步分析
自变量的筛选
向前筛选法
向后筛选法
逐步回归法
变量的多重共线性问题,是指自变量之间存在线性相关关系的现
回归的统计检验
回归方程的显著性检验
是要检验因变量与所有自变量之间的线性关系是否显著,也就是检验各自变量的回归系数是否为0的显著性检验。
回归方程的拟合优度检验
是检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。
回归系数的显著性检验
是研究回归方程中的每个自变量与因变量之间是否存在显著的线性关系,也就是研究自变量能否有效地解释因变量的线性变化,它们能否保留在线性回归方程中。
残差分析
残差residual是回归模型中ε的估计值,是指因变量的样本实测值与回归方程计算所得的预测值之差。 残差分析的基本原理是,如果回归方程能够较好地反映因变量的特征和变化规律,那么残差序列中不应包含明显的规律性和趋势性。同时,基于回归模型的要求,需分析残差是否服从均值为0、等方差的正态分布,残差序列是否独立,并借助残差探测样本中的异常值等。 残差分析通常借助于图形分析和数值分析方法进行。
绘制残差图
残差的独立性分析
探测样本中的异常值和强影响点
曲线估计
常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。 虽然部分变量关系形式上呈现非线性关系,但可通过变量变换化为线性关系,并可最终进行线性回归分析建立线性模型。
非线性回归分析
选择合适的初始值进行迭代
logistics回归分析
P的logit变换,对事件A发生的概率P与事件A不发生的概率1-P之比,即优势odds或发生比、相对风险做自然对数变换。进而各自变量的线性组合与P之间形成了数学中的logistics函数关系。
将两个优势的比值称为优势比或比数比odd ratio,并记为OR。对于恶性肿瘤等发病率很低的慢性病,由于P很小,通常还可以将优势比OR作为相对危险度RR(relative risk)的近似估计。
在logistics回归中,更关注优势比(Odds Ratio, OR)的变化而不是p值的变化,主要基于以下几点原因: 优势比(OR)的直观性:OR值表示的是在某个自变量变化时,事件发生与不发生的相对概率之比的变化。它提供了一个直观的方式来理解自变量对因变量影响的强度和方向。相比之下,p值更多地是关注于统计显著性的检验,即某个效应是否可能由于偶然性产生。 解释能力:在logistic回归模型中,OR值能够直接解释自变量对因变量发生概率的影响程度。例如,如果某个自变量的OR值为2,表示该自变量每增加一个单位,事件发生的概率是不发生的概率的两倍。这种解释对于实际应用非常有用。 模型的稳定性:在logistic回归中,OR值通常比p值更稳定。特别是在样本量不是特别大或者模型中存在多重共线性等问题时,p值可能会受到较大影响,而OR值则相对稳定,能够更准确地反映自变量和因变量之间的关系。 决策支持:在需要基于模型结果进行决策的场景中,OR值能够提供更为直接和实用的信息。例如,在医学研究中,研究者可能更关心某个治疗因素是否能够显著增加患者康复的概率,而OR值正好能够回答这个问题。 综上所述,logistic回归中更关注优势比(OR)的变化而不是p值的变化,主要是因为OR值具有直观性、解释能力强、模型稳定性好以及能够为决策提供直接支持等优点。当然,p值在统计推断中也具有重要作用,特别是在检验假设和确定模型显著性方面。但在实际应用中,OR值往往更受关注。
(二项)logistics回归方程的显著性检验,是检验自变量全体与logit(P)的线性关系是否显著。
似然比检验
logistics回归系数的显著性检验,是逐个检验模型中各自变量是否与logit(P)有显著的线性关系。
Wald统计量
logistics回归方程的拟合优度检验
广义决定系数
Cox & Snell R²决定系数
Nagelkerke R²决定系数
错判矩阵
自变量筛选
向前引入法
向后剔除法
向前逐步筛选法
协方差分析
它将那些很难人为控制的且对分析结果有显著影响的因素作为协变量,并在排除协变量对观测变量影响的条件下,分析处理因素变量对观测变量的作用,从而更加准确地对处理因素进行评价。
聚类分析
样本聚类(Q型聚类)
层次(系统)聚类法
分解法
凝聚法
最近邻居距离
最远邻居距离
组间平均链距离
组内平均链距离
重心距离
中位数距离
离差平方和距离或Ward法距离
快速聚类法(K-均值聚类法)
聚类数为K
变量聚类(R型聚类)
在聚类分析中反映样本(或变量)关系之间亲疏程度的统计量称为聚类统计量
距离
定量变量样本间的距离
欧式距离Euclidean distance,两样本X、Y间的欧式距离是两样本k个变量值之差的平方和的平方根
欧式平方距离Squared Euclidean distance,两样本X、Y间的欧式平方距离是两样本k个变量值之差的平方和
切比雪夫Chebychev距离,两样本X、Y间的切比雪夫距离是两样本k个变量值绝对差的最大值
Block距离,两样本X、Y间的Block距离是两样本k个变量值绝对差的总和
明氏Minkowski距离,两样本X、Y间的明氏距离是两样本k个变量值绝对差p次方总和的p次方根(p可以任意指定) 当各变量的测量值相差悬殊时,用明氏距离并不合理,常需首先对数据标准化,然后用标准化后的数据计算距离。
用户自定义Customized距离,两样本X、Y间的用户自定义距离是两样本k个变量值绝对差p次方总和的r次方根(p,r可以任意指定)
定性变量(分类变量)样本间的距离
卡方(Chi-Square measure)距离
Phi方(Phi-Square measure)距离
二值变量样本间距离
简单匹配系数Simple Matching
雅科比系数Jaccard
相似系数
定量变量样本间相似系数
夹角余弦系数
Pearson相关系数
注意事项
选择相应的变量类型进行聚类分析。
各变量的变量值不应有数量级上的差异。 聚类分析是以各种距离来度量样本间的亲疏程度的,从上述各种距离的定义来看,数量级大的变量将对距离产生较大影响,并影响最终的聚类结果。要消除这种数量级差异的影响,可对各变量数据做标准化处理。常用的标准化方法是z变换,将变量数据标准化为均值是0、标准差是1的标准正态数据。
各变量间不应有较强的线性相关关系。
聚类分析的结果应多次探索择优而定。聚类分析属于探索性的分析工具,对聚类分析结果的优劣评价目前还没有系统的检验理论,因此实际工作中,只能通过多次尝试,结合实际意义选取较优的分类结果。
因子分析与主成分分析
因子分析
是将具有错综复杂关系的变量(或样本)综合为少数几个潜在因子指标的线性组合,以较少几个综合指标即因子来反映原始变量指标的大部分信息,同时使因子具有一定的命名解释性的,多元分析中处理降维的一种统计方法。
主要应用于: ①寻求基本结构,简化观测指标系统; ②对变量或样本进行分类。
R型因子分析,研究变量之间相互关系的因子分析 X=AF+E
因子载荷
变量共同度
因子的方差贡献
特征值
方差贡献率和累计贡献率
模型中公共因子(或主成分)个数的确定
Q型因子分析,研究样本之间相互关系的因子分析
基本步骤
如何构造因子变量,得到因子模型
将原始数据进行标准化
确定待分析的原有若干变量是否适合于因子分析
巴特利特球形检验Bartlett Teat of Sphericity
反映像相关矩阵检验Anti-image-correlation matrix
KMO(Kaiser-Meyer Olkin)检验
构造因子变量
计算因子变量的得分
如何对因子变量进行命名解释
利用旋转使得因子变量更具有可解释性
因子分析中各公因子应该具有实际意义
主成分分析
评判统计量
特征值
方差贡献率
累计贡献率
用途
主成分评价,进行信息的浓缩,并解决权重的确定等问题
主成分回归,可以克服回归系数“估计不稳定”的缺点
区别与联系
诊断试验评价与ROC分析方法
诊断试验的ROC分析方法
ROC分析即受试者工作特征(Receiver operating characteristic)分析。在ROC诊断试验的评价研究中,它以每一个检测结果作为可能的诊断界值(cut-off point),计算得到相应的真阳性率(TP)和假阳性率(FP),以假阳性率(即1-特异度)为横坐标,以真阳性率(即灵敏度)为纵坐标绘制而成的曲线,即得到ROC曲线,通过ROC曲线可从直观上表明诊断试验的准确度。
ROC分析是一种把灵敏度(TP)和特异度(1-FP)结合起来,综合评价诊断准确度的方法。其基本思想是不固定诊断标准(阈值),把灵敏度和特异度看作一个连续变化的过程,用ROC曲线描述诊断系统的特性,用曲线下面积说明诊断的准确度。
基本特点
允许诊断结果在“阴性”和“阳性”之间的中间状态
使诊断试验应用范围拓宽,并且能够保持信息的完整性
ROC分析结果与诊断标准无关
能保持诊断试验评价结果的一致性
ROC曲线下面积的估计
非参数法
经验ROC曲线,其下面积等价于患者组和非患者组实验结果秩和检验的Wilcoxon Mann-Whitney检验统计量
参数法
拟合ROC曲线或称光滑ROC曲线,由根据实验结果拟合的双正态模型得到,该法假设患者组和非患者组的实验结果均符合正态分布