导图社区 临床专业医学统计学思维导图
本人根据课堂重点内容结合历年考试真题整理的临床专业医学专业统计学考点内容思维导图,希望对你的考试有所帮助!
编辑于2021-06-16 07:42:07医学统计学
基本概念
总体与样本
同质与变异
变量(的观测值)
计量资料
研究对象的数量特征,能用数值大小衡量
定量数据
连续型数据
离散型数据
分类资料
研究对象的品质特征,表现为互不相容的类别
定性数据
有序数据
数据资料的转换
从高级——低级:连续性数据-有序数据-分类数据-二分类
统计描述
特定数据类型的统计描述
定量数据
频数分布
表示方式
频数表
直方图
作用
揭示资料的分布类型(对称、正偏态、负偏态)
解释资料的分布特征(离散、集中)
描述集中趋势的统计学指标
算术均数
适用条件:对称分布资料
计算方法
直接算术均数
适用于 n 较小时 (例如 n<30)
加权算术均数
适用于频数表资料(n 较大时)
几何均数
适用条件:观察值变化范围跨越多个数量级、服从对数正态分布的资料
计算方法
直接几何均数
加权几何均数
中位数和百分位数
适用条件:偏峰分布资料、各种资料分布
计算方法:中位数是特殊的百分位数
上述统计学指标之间的关系
对称分布
均数≈中位数
正偏态分布
均数>中位数
负偏态分布
均数<中位数
对数正态分布
几何均数≈中位数
描述变异程度的统计学指标
极差
适用范围:任何计量资料,为参考指标
优点:计算简便
缺点:利用信息少;n大,R也会大;不够稳定
四分位数间距
适用条件:与中位数匹配使用
优点:中间50%数据的极差,比全距稳定
缺点:仍未反映所有数据的变异程度
(均)方差与标准差
适用条件:与均数匹配使用,用于对称分布,尤其是正态分布
表示方法
总体方差、总体标准差用σ、σ²表示
样本方差、样本标准差用 S 、S²(SD)表示
优点
反映对称分布资料平均离散程度
缺点
资料间对比时,限于单位相同且均数相近的情况下
计算方法
离均差平方和
方差
总体方差
样本方差
标准差
样本标准差
频数表样本标准差
变异系数
适用条件
用于不同变量间变异程度的比较,尤其是量纲不同的变量间的比较
也可以用于均数相差较大时
计算方法
定性数据
常用相对数(比值)
率
特点
分子是分母的一部分
符号
π(总体率),p(样本率)
计算方法
构成比
特点
分子是分母的一部分
各部分构成比之和为100%或1
某一部分所占的比重增大,其它部分的比重会相应减少
计算方法
相对比
特点
分子不是分母的一部分
两指标可以是绝对数、相对数或平均数
计算方法
分类
类别比
相对危险度(两种不同状态下某疾病发生的概率之比)
比数比(病例组和对照组中的暴露比例与非暴露比例的比值之比)
标准化率
采用统一的内部构成,计算所得的率
标准的选择原则
①两组之一
②两组合计
③另选其他,通用的或便于比较的标准
双变量计量数据(非确定性关系)
相关分析(线性相关)
适用条件
两个变量x、y服从二元正态分布
分类
正相关
负相关
无相关
非线性相关
Pearson积矩相关系数
符号
总体相关系数ρ
ρ=0:总体中X和Y不相关
ρ≠0:总体中X和Y直线相关
样本相关系数r
计算方法
协方差
两个变量与其均值离差乘积和的平均数
意义
协方差为大的正值时,表示强的正线性相关关系
协方差为大的负值时,表示强的负线性相关关系
协方差接近于零时,表示很小或没有线性相关关系
特点
取值范围为 -1 ≤ r ≤ 1
正负反映相关方向
相关系数绝对值大小反映相关的密切程度
意义
相关系数就是标准化的协方差
回归分析(线性回归)
适用条件
因变量y与自变量X间呈线性关系
任意两个观察值互相独立
在一定范围内,任意给定X值,则对应的随机变量Y服从正态分布
在一定范围内,对于不同的X值,Y总体变异程度相同
描述指标
相关表
将一个变量按大小排列,同时将另一变量的数值对应列出来
线性回归模型(总体)
线性回归方程(样本)
回归系数:b(X 每增加一个单位,Y 平均改变的单位数)
意义
用 样本数据 建立的有关Y依赖X变化的线性表达式称为线性回归方程
是对两变量 总体间 线性关系的一个估计
计算方法
残差
实测值Y与假定回归线上的估计值的纵向距离(因变量不能解释的部分)
回归系数
截距
线性回归与线性相关的区别与联系
区别
资料要求不同
回归:Y服从正态分布; X是可以精确测量和严格控制的变量
相关:X和 Y 均服从正态分布
变量地位不同
回归: Y 依赖于X 的数值变化程度,是单向的依存关系
相关: X与 Y 处于平等的地位,彼此相关关系是双向的
用途不同
说明变量间的相关关系用相关
说明两变量间依存变化的数量关系用回归
联系
r与b的正负号相同
r与b的假设检验等价 t r = t b
可以用回归解释相关(决定系数)
统计表与统计图
统计表(分类资料频数分布表)
结构
标题,标目,线条,数字,备注
分类
简单表(一个分类变量)
组合表(两个分类变量)
统计图
结构
标题,标目,图域,图例,刻度
分类
描述定量数据
直方图
适用条件
连续型数值变量频数分布
注意事项
纵轴刻度必须从“0”开始
矩形面积代表各组段频数或频率
线图
适用条件
描述统计量随时间变化而变化的趋势
分类
普通线图
反映不同指标变化的幅度
半对数线图
反映不同指标变化的速度
箱式图
适用条件
比较两组或多组偏态分布资料的特征
特点
纵轴可以不从“0”开始
误差条图
反映均数和可信区间
描述定性数据
直条图
适用条件
表示相互独立的某统计指标值的大小
分类
单式直条图
复式直条图
特点
直条图的纵轴起点必须为零
构成图
适用条件
适合描述分类变量的构成比
分类
圆图
用于一组资料内部构成比的表达
百分条图
用于多组资料构成比的比较
描述双变量数据
散点图
用点的密集程度和变化趋势表示两指标之间的直线或曲线关系
统计推断
医学统计推断基础
正态分布X~N(μ,σ2)
正态分布的特征
对称性:以X=μ为中心,左右完全对称,并以X轴为渐近线
集中性:单峰,在X=μ处曲线最高,在μ±σ各有一个拐点
两个参数
μ:位置参数,决定正态分布曲线的中心位置
σ:形态参数,决定正态分布曲线的高矮胖瘦
正态曲线下的面积分布有规律(面积等同于概率,积分计算)
标准正态分布:Z分布,Z ~ N(0,1)
Z界值表用途
根据Z值查左侧尾部面积(概率)
根据左侧尾部面积(概率)查Z值
医学参考值范围
正态分布法(满足正态分布)
对数正态分布,可用对数值按正态分布原理制定参考值范围
单侧医学参考值范围
双侧医学参考值范围
百分位数法(不满足正态分布)
双侧参考值范围
单侧参考值范围
参数估计
由样本统计量估计总体参数的大小 (量的推断)
抽样误差
均数(定量资料)
均数的抽样分布
中心极限定理
一般,只要 n≥30(50), 可认为样本均数服从正态分布
正态总体抽样的抽样分布规律
样本均数的分布仍以μ为中心,左右基本对称,近似正态
其变异程度大大减小,n越大,样本均数的变异程度越小
偏态总体抽样的抽样分布规律
样本含量大时,样本均数的分布仍近似正态
均数的抽样误差
产生原因
总体中个体差异大小即 σ 的大小
抽取的样本含量大小即 n 的大小
表现形式
样本均数彼此间的差异
样本均数与总体均数间的差异
衡量标准
均数的标准误
概念:样本均数的标准差
符号
计算方法
作用
反映抽样误差的大小
用于确定总体均数的可信区间
率(定性资料)
率的抽样分布
n较小时,样本率的抽样分布呈离散型分布
当n足够大,样本率p的抽样分布逼近正态分布
一般n p 和n(1-p)均>5时
率的抽样误差
表现形式
样本率彼此间的差异
样本率与总体率间的差异
衡量标准(率的标准误)
π 已知,用理论值,否则,用估计值
方法
点估计
区间估计
可信区间
准确度:1-α 越接近 1 越好
精密度:区间宽度越窄越好
区间估计类型
均数估计
通过样本均数对总体均数大小进行估计
σ已知
z分布
σ未知
大样本(n≥50)
z分布(t分布的极限为z分布)
小样本
t分布
来源
特点
t分布是一簇曲线
t分布的参数是自由度
t分布的极限是Z分布
应用
均数差值估计
通过两样本均数的差值对两个总体均数差值大小进行估计
自由度
两样本均数之差的标准误
n较小时(方差齐性)
n较大时(n1、n2均大于50)
总体率估计
假设检验
比较总体参数间的有无差别 (质的推断)
基本问题
判断两份样本之间的差异是抽样误差导致的,还是本质差异导致的?
基本原理
反证法
小概率事件原理
基本步骤
建立假设,确定检验水准
H0:原假设(零假设, 无效假设)
H1:备择假设( 研究假设)
α:检验水准
选择检验方法,计算检验统计量
定量数据
t检验
适用数据:一组或两组样本均数的比较
应用条件
随机样本
正态分布总体 (n<50时)
两独立小样本比较时,要求两总体方差相等
单样本t检验
目的
推断未知总体均数 μ 和常数μ0 有无差别
方法
σ已知:z检验
计算z值,查z界值表中P
σ未知
大样本(n>50):z检验
小样本:t检验
计算t值,求得相应的t界值表中P
配对样本均数t检验
目的
检验两相关样本均数所代表的两未知总体均数(μ1,μ2)是否相等
方法
将每一对资料转变为单样本资料,即配对的差值,若处理无差别,则差值的总体均数为0
两独立样本均数比较的t检验
目的
检验两独立样本均数所代表的两未知总体均数(μ1,μ2)是否相等
方法
n1 >50且 n2 > 50:大样本 z 检验
n1 ≤ 50或 n2 ≤ 50(正态总体)
两样本的方差齐性检验
Levene检验:用于两组或多组总体方差齐性检验
F检验
仅限于两组总体方差的齐性检验
F分布:正偏态,两个参数ν1,ν2,取值为0~∞
两总体方差齐性
两总体方差不齐
t′检验
satterthwaite近似 t 检验(成组t' 检验)
变量变换
秩和检验
F检验(方差分析)
适用数据:多组样本均数同时比较
应用条件
各样本是相互独立的随机样本,均服从正态分布
各样本的总体方差相等,即方差齐性
原理
方差的符号表示
离均差平方和SS
方差/均方差MS
重要概念
总变异
所有测量值之间总的变异程度
组间变异
各组均数与总均数的离均差平方和,反映处理因素的作用和随机误差的影响
组内变异
各组内各测量值与其所在组的均数的差值的平方和,反映随机误差的影响
关系
F分布
正偏态,取决于两个参数ν1,ν2,取值为0~∞
类型
多样本的方差齐性检验
建立假设
Bartlett(巴特利特)检验法
适用条件:资料服从正态分布
Levene(列文)检验法
适用条件:任何分布资料
完全随机设计——成组设计
适用数据:将全部试验对象随机分配到 k 个处理组(水 平组,k≥2),各组分别接受不同的处理
方差分析表
随机区组设计资料
适用数据:先将受试对象按重要特征相同或相近的原则配成区组(block,配伍组),再将每个区组内的受试对象随机分配到各处理水平组
方差分析表
多个样本均数间的两两比较
适用数据:多重比较不等同两样本均数比较的 t 检验
分类
检验某几个特定的总体均数是否相等(部分比较)
LSD-t检验
Dunnett-t检验
适用条件:k-1个实验组与一个对照组均数差别的多重比较
检验全部k个总体均数是否相等(全面比较)
SNK-q检验
定性数据
χ2 (卡方)检验
卡方分布
自由度为1 的 χ2 分布
自由度为v 的 χ2 分布
基本公式
基本思想
χ2值反映了实际频数与理论频数的吻合程度
类型
四格表资料的 χ2 检验
适用数据
四格表数据
n<40 或 T<1
Fisher确切概率法
计算四个数据变化的各种组合及Pi
计算检验值
确定P值:上述符合条件的累计概率即为P值
n≥40,且T≥5
通用公式
专用公式
n≥40,且 1≤T<5
校正公式
配对四格表资料的χ2检验
目的:推断两个总体率有无差别
特点
两种方法的差别由b 、c两格数据来反映,a 、d两格表示两法结果相同,不予考虑
计算方法
R×C表资料的 χ2 检验
目的
可用于多个独立样本率的比较
两个及多个独立样本构成比的比较
条件
理论数不能太小,各格的T≥1,且1≤T<5的格子不宜多于总格子数R×C的1/5
计算方法
双变量数据
线性相关的假设检验
相关系数的假设检验
总体相关系数的估计(参数估计)
线性回归的假设检验
回归方程的假设检验(方差分析)
回归系数的t检验
确定P值,做出统计推断
I 型错误:拒绝实际上成立的H0,属于弃真的错误,犯这种错误的概率是α (其值等于检验水准 )
II型错误:接受实际上不成立的H0,属于取伪的错误,犯这种错误的概率是β(其值未知 )
注意事项
n 一定时, α 增大,β 减少;反之亦然
如要同时减小α和β ,唯一可行的办法增加n
假设检验与参数估计的关系
区别
区间估计用于定量推断总体参数的范围即大小
假设检验用于定性推断总体参数是否不等即差别
联系
置信区间可回答假设检验有无差别的问题
置信区间可提供假设检验的不能提供的信息
假设检验能提供确切的概率P值,置信区间不能