导图社区 医学统计学复习
这是一篇关于医学统计学复习的思维导图,主要内容有参数检验、非参数检验、正态性检验和方差齐性检验。
编辑于2022-01-27 14:42:06假设检验方法
参数检验
t检验
1-2个总体
独立样本均数t检验
条件:总体正态分布
配对设计t检验(非独立样本)
条件:总体正态分布
两独立样本均数t检验
服从正态分布 两样本各自总体均数服从正态分布 两样本所代表的总体方差相等
方差分析
独立性,正态性(每组样本都需要做正态性分布),方差齐性(每组的都需要做) 3/n个总体。用于推断多个总体均数是否不等,减少t检验两两比较
完全随机设计资料的方差分析
多组总体仅涉及1个处理因素 ;单因素方差分析; 结果只能说明多组间有差异 若分析每两组之间是否有差异,需要做进一步作均数间多重比较
随机区组设计资料
双因素方差分析(1个因素为处理因素,另一个因素为:降研究对象按照某种或某些影响实验结果的非处理因素(体重,身高,性别某一种)分为若干个区组) 需要对处理组和区组分别进行正态性检验和方差齐性检验
多个样本均数的多重比较
SNK-q检验
多样本均数间任意两组的比较
LSD-t检验
适用于多组中某一对或几对在专业上有特殊意义的均数进行比较
Dunnett-t检验
适用于多个多个实验组与一个对照组均数的两两比较
Bonferroni检验
根据两两比较的次数对检验水准进行调整的一种方法,当比较次数>10次,调和增厚的检验水准会过低,增加犯第二类错误的概率,不建议采用此方法
拉丁方设计资料
三因素设计:一种处理因素,两种需要控制的非处理因素, 3*3/4*4/5*5拉丁方阵
交叉设计资料
同源配对设计基础上的三因素设计;(AB两种干预,1/2两个阶段 2*2交叉设计)
析因设计资料
2/n个因素不同水平(剂量不同/观察时间的不同等)进行排列组合、交叉分组进行实验。 可评价各因素的单独效应、主效应、两因素的交互作用
重复测量资料
对同一受试对象同一观测指标在不同时间点上的多次测量,可对测量指标进行动态观察。 2组总体,3个观测时间。 前提条件: 正态性:处理因素个水平样本均服从正态分布; 方差齐:各处理水平的总体方差齐 球对称性: Mauchly检验,p>0.05时满足球对称
推断不同总计之间有无差别
非参数检验
适用于有序分类变量资料、总体为偏态分布或分布形式未知的资料、个别数据偏大或数据的某一段无确定数值的资料、各组离散程度相差悬殊的资料。 常见的检验方法有:Kolmogorov-Smirnov检验、秩和检验、Ridit分析等
χ²分析
用于无序分类变量的假设检验
四格表资料的χ²检验
两样本率(构成比)的比较,分组变量(治疗:a/b)和反应变量(+/-)均为两个水平
校正χ²检验
Fisher确切概率法
常作为四格表资料假设检验的补充
配对设计四格表
观察同一对内两个个体接受两种不同的处理、或同一批样本用不同处理方法、或两个评估者对研究对象进行逐一评估,以评估不同方法的独立性、一致性、优势性 资料变量为二分类
独立性检验 →Pearson 卡方检验+列联系数
rp < 0.4 关联较弱;0.4<rp < 0.8 关联中等;rp > 0.8 关联较强
一致性检验 → Kappa检验
优势性检验 → McNemar卡方检验法
分析方表资料的两种方法检出结果的一致部分是否由于偶然因素导致 Kappa值等级解释 =-1完全不一致; =0完全由机遇因素造成 <0.02 一致程度差;0.02~0.2轻微;0.20~0.40尚可;0.40~0.60中等;0.60~0.80好;0.8~1.0几乎完全一致
R*C表资料
可用于多个样本率的比较、两个或多个构成比的比较、双向无序分类资料的关联系检验
多个样本率的比较
只能说明多样本率之间存在差异,不能说明两两间的差异
多个构成比的比较
注意事项
计算T(理论频数)TRC=nR*nC/n 1≦T≦5
T超过1/5的格子
增加样本含量,增大理论频数
根据理论知识考虑调整数据
删掉理论频数太小的行或列,考虑是否将理论频数太小的行或列与性质相同的邻行或列合并
用双向无序分类行*列表资料的 Fisher确切概率法
T不超过1/5的格子,可用Pearson χ²检验
指标变量
单向有序的行×列 →非参数检验
双向有序且属性不同的行×列 →分类变量资料的相关分析或线性趋势检验
若推断两有序变量之间是否存在线性相关关系或存在线性变化趋势
双向有序且属性相同的行×列→Kappa检验
考察两种方法检验的一致性
多样本率间的多重比较
χ²分割法、Scheffe可信区间法、Bonferroni法;多重比较时需要重新校正α´,保证假设检验中Ⅰ型错误概率不变,分析目的不同,重新规定的α´也不同
多个样本率间的两两比较
各实验组与同一对照组比较
秩和检验
有序分类变量和不满足参数检验条件的数值变量
配对设计资料的符号秩和检验
Wilcoxon符号秩和检验
完全随机设计两样比较的秩和检验
推断两样本所来自的两个总体分布是否相同
两组数值变量资料
Wilcoxon符号秩和检验
两组有序分类变量资料
Wilcoxon符号秩和检验
完全随机设计多样本比较的秩和检验及其两两比较
多组数值变量资料
Kruskal-Wallis检验
多组有序分类变量资料
Kruskal-Wallis检验
随机区组设计资料的秩和检验及其两两比较
不满足正态分布的随机区组设计可用秩和检验 Friedman秩和检验
多个样本两两比较的秩和检验
完全随机设计多个样本两两比较
Nemenyi test方法
随机区组设计资料的两两比较
q检验
推断总体之间有无差别
正态性检验和方差齐性检验
正态性检验
图示法
直观,但一般提供正态性检验的重要补充
直方图
P-P图
Q-Q图
箱线图
茎叶图
偏度(S)与峰度(K)检验
S<2;K<8大致认为正态分布(某文献诉)
S=0;K=0 服从正态分布
非参数检验
D法/柯尔莫哥洛夫-斯米诺夫检验/Kolmogorov-Smirnov
>=0.05有意义 使用大样本公式 功效低
Lilliefor 正态性检验
修正K-S检验
W法/夏皮罗一威尔克检验法/Shapiro-Wilk
小于50时应用 >=0.05有意义
卡方拟合优度检验
同样使用大样本公式 功效低
方差齐性检验
总体方差齐
Levene检验
不要求数据服从正态分布,适用于任意分布资料
Bartlett检验
数据服从正态分布
两样本方差齐性
要求两两本来自正态总体
F检验
相关与回归
分析非确定性关系的统计方法 变量间关系有:确定性关系(函数关系)和非确定性关系(随机性关系)
双变量线性与回归
线性相关分析
适用于双变量正态分布资料,定量资料; 描述两个连续随机变量之间线性相关程度及线性关系方向
正态分布→做散点图(看有无线性变化趋势)→Pearson相关 计算相关系数r
非正态分布→转换资料或进行等级相关分析
等级相关分析/秩相关
双变量不满足正态分布,或总体分布类型未知,或等级资料(有序分类变量)
Spearman等级相关
线性回归分析
用直线方程式表示自变量和因变量之间的关系-线性回归关系 描述自变量和因变量之间的依存关系
条件:线性;独立性;正态性;等方差性
线性→散点图 独立性→专业知识判断 正态性→正态性检验/残差分析判定 等方差性→残差图判定(残差越小越好)
多重线性回归分析
目的:研究一个连续型定量因变量与多个自变量之间的线性关系
条件:线性;独立性;正态性;等方差性
线性→散点图 独立性→专业知识判断 正态性→正态性检验/残差分析判定 等方差性→残差图判定(残差越小越好)
应用: 影响因素分析、评估与预测、统计控制
观察性研究或实验性研究
注意事项
数据类型
因变量:为连续型定量变量
自变量:
定量变量
二分类变量
无序变量
有序变量
常采用哑变量进行处理, 变量筛选时,多个哑变量需要作为一个整体考虑是否引入模型
样本含量 样本量n至少应为自变量个数的5~10倍
多重共线性:自变量之间存在较强的线性关系
消除多重共线性方法
剔除造成某个共线性的自变量,重建回归方差
降多个存在多重共线性的自变量合并成一个变量
采用逐步回归的方法或主成分回归法
步骤
多重线性回归模型建立
参数评估→ 最小二乘法
模型成立于否的假设检验
检验因变量与各自变量间存在线性关系→方差分析法
比较各自变量对因变量的作用大小→标准化偏回归系数
在偏回归系数有统计学意义的前提下进行 标准化回归系数的绝对值越大,说明变量对因变量的影响作用越大
检验每一个自变量对因变量有影响→偏回归系数假设检验→t检验法
回归模型拟合效果的评价
评价常用指标:R²,越接近1拟合程度越好
调整决定系统数/校正决定系数R²α
复相关系数R,越接近1拟合程度越好
残差分析:在±2倍标准差之间认为模型拟合度好
自变量的选择:筛选对因变量有重要作用的自变量,剔除影响较小或没有影响的自变量
回归诊断与评价
Logistic回归分析
目的:因变量为分类变量的回归分析
应用:流行病学危险因素的筛选、控制与调整混杂因素、预测与判定
注意事项:个体独立性、变量赋值、
个体的独立性
变量赋值
因变量 阳性事件1,阴性事件为0 自变量 二分类变:暴露因素为1,非暴露因素为0 无序多分类变量:进行哑变量化, 有序分类变量:按照分类顺序大小赋值1……k,
样本含量 至少为自变量个数的20倍以上
有序Logistic回归的平行线假设检验
举例分类:
条件Logistic回归分析 适用于配对或配比研究资料
非条件Logistic回归分析
二分类变量Logistic回归模型:因变量为二分类资料,自变量为二分类变量、多分类变量(无序、有序均可)、数值变量
Logistic回归模型概述
Logit变换 自然对数变换
Logistic回归模型建立: 残差分布 为 二项分布; 回归系数采用 最大似然估计法; 系数及模型的检验采用:Wald检验、似然检验、计分检验
比较
似然比可靠,既可以用于但个自变量,又适合多个自变量同事检验
比分检验,在小样本量时比似然比1型错误概率小
Wald检验适合单个自变量的检验,结果偏于保守
模型参数意义 OR(流行病学优势比)
回归模型的假设检验:
回归模型的假设检验:判断总体回归模型是否成立 似然比检验(LRTs)检验
回归系数的假设检验:Wald检验
回归模型的评价与预测
回归模型评价: 似然比检验:-2ln(L)越小,拟合效果越好 Hosmer-Lemeshow检验 ; 偏差检验 Pearsonχ²检验
回归模型的预测精准度 Cox-Snell 广义决定系数 R² Nagelkerke 广义决定系数 R²
自变量筛选 向前法、后退法、逐步法