导图社区 医学统计学
这是一个关于医学统计学的思维导图,在医学领域,关于收集数据、分析数据和由数据得出结论的一组概念、原理和方法的学科。
编辑于2023-12-23 18:28:41医学统计学
绪论
什么是医学统计学
在医学领域,关于收集数据、分析数据和由数据得出结论的一组概念、原理和方法的学科。
医学统计的基本内容
统计工作基本步骤
1.设计
2.收集资料
3.整理资料
4.分析资料
医学统计中基本概念
同质与变异
同质
指观察单位或研究间具有相同或相近的性质,通常要求主要研究指标的影响因素相同或基本相同。
变异
指同种测量在总体中不同观察单位或个体之间的差别。
变量与数据类型
变量
是随机变量的简称,表示观察对象在性质、数量和程度等方面的特征。变量的观测值称为数据,也称为变量值。
数据类型
定量数据(计量资料)
定性数据(计数资料)
有序数据(半定量数据或等级资料)
注意辨析
数值型
有计量单位
例如:身高、体重、血压、温度等;家庭成员数、脉搏、白细胞计数等
定性
无计量单位
例如:性别(男/女)、血型(A/B/AB/O)等
定性
各类别有程度或顺序上的差别
例如:化验结果(-/+/++/+++)、治疗程度(显著/有效/好转/无效)等
总体和样本
总体
指研究对象的全体,它通常由所有的同质观察单位或个体组成。
样本
指从总体中选取的有代表性的一部分观察单位或个体,通常使用随机选取方法得到。
参数
描述总体特征的统计学指标。
统计量
由样本计算出的特征指标。
概率与概率分布
概率
描述随机事件出现可能性大小的定量度量。
随机事件
也称“不确定事件”:可能发生,也可能不发生的事件。与“必然事件”对比。
小概率事件
习惯上将P≤0.05的事件称为小概率事件,表示在一次随机抽样中发生的可能性很小
我们认为它很可能不发生
统计描述
定量数据
频数图表
频数表制作步骤
1.确定组数
2.确定组距
3.确定组限
4.确定组频
频数分布表和直方图的用途
1.作为陈述资料的形式,可以代替原始资料,便于进一步分析。
2.便于观察数据的分布类型。
3.便于发现资料中某些远离群体的特大或特小值。
4.当样本量比较大时,可用各组段的频率作为概率的估计值。
老师PPT版
①揭示频数分布类型(是否是正态分布)
对称分布和偏态分布
②揭示频数分布特征(平均水平、变异程度)
描述集中趋势的统计学指标
平均数
是描述一组观察值集中趋势或平均水平的统计指标。包括算数均数、几何均数和中位数等。
分类
算术均数(X)
适用于正态分布或近似正态分布的定量变量值
总体均数μ,样本均数x–
几何均数(G)
适用于呈倍数关系的等比资料
计算公式G=lg⁻¹(∑lgX/n)
如抗体滴度、血清凝集效价、细菌计数、某些物质浓度等
中位数和百分数
中位数(M)
百分位数
四分位数(Q)
P₂₅、P₇₅
百分位数
Pₓ
当资料为正态分布时,μ≈M,P₅₀=M
适用于 1.两端有特大,特小值 2.分布末端无确切数据 3.总体分布类型未知
描述变异程度的统计学指标
变异程度
一组观察值之间的差别或变化(或变动)程度大小
分类
极差(R)
适用于偏态分布,分布类型未知
四分位数间距(QR)
方差(Var)
适用于正态分布
总体方差σ²,样本方差s²
离均差平方和(SS)
描述了每个观测值相对于平均水平X–的离散程度
∑(X-X–)²
自由度
ν=n-1
表示在所有的n个离均差平方项中,由于样本均数X–的限制,只有n-1个离均差平方和是独立的
标准差
总体标准差σ,样本标准差s
变异系数(CV)
用于直接比较两个样本的变异程度,不受平均水平(或参照数据的平均值)影响
是描述相对离散程度大小的统计指标
CV=S/X–×100%
定性数据
相对数
率
表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度或频率。
说明某段时间内某现象发生的强度或频率,是强度指标
构成比
表示某事物内部各组成部分在整体中所占的比重,常以百分数表示。
说明构成成分,为构成指标
相对比(比)
是A和B两个有关联指标值之比,用以描述两者的对比水平。
两者可为绝对数、相对数或平均数,可同性质也可不同性质
常用相对数指标
死亡率
某年某地死亡人口总数/同年该地年平均人口数×1000%
病死率
某期间因某病死亡人数/同期该病的患病人数×100%
发病率
某时期某病新病例数/同期间内平均人口数×比例基数
患病率
某地某期间某病患病例数/该地同期内平均人口数×比例基数
相对数指标使用的注意问题
1.不要把构成比与率混淆
2.使用相对数时分母不宜过小
3.正确计算合计率
分子、分母分别相加(分母相近时,可直接除数)
4.注意资料的可比性
使用标准化法,将不同构成变为标准构成再进行比较
5.样本率或构成比存在抽样误差
进行假设检验,统计推断
假设检验方法
t检验
单样本t检验 (单样本均数t检验)
适用条件:1.指标为定量指标,服从正态分布 2.小样本
用于检验样本均数X–所代表的总体均数μ是否与已知总体均数μ₀有差别
配对样本均数t检验 (配对t检验)
适用条件:1.指标为定量变量值 2.每对差值d服从正态分布 3.小样本
实质是差值样本均数d–与已知总体均数μᵈ=0比较的单样本t检验
两独立样本t检验 (成组t检验)
适用条件:1.指标为定量变量值 2.有两组样本,且两组样本是独立的 3.两个样本分别来自的两个总体都服从正态分布 4.两个正态分布总体的总体方差是相等的(方差齐) 5.小样本
两样本量n₁、n₂可等可不等,尽量相等
方差分析 (F检验)
其基本思想是将全部观测值的总变异按影响因素分解为相应的若干部分变异, 在此基础上,计算假设检验的统计量F值,实现对总体均数是否有差别的统计推断。
若F≥Fα/2则P≤α,拒绝H₀,接受H₁,可认两总体方差不齐:反之,则认为两总体方差具有齐性
完全随机设计 (单因素方差分析)
基本步骤
1.建立假设:H₀:μᴀ=μʙ=μᴄ H₁:不全相同或全不相同
2.计算,列出方差分析表
3.界定P值,做结论
难点:计算上的分分合合
消除内、外部矛盾(组间、组内)
两两比较(多重比较)
q检验(SNK法)
需要完全随机设计中计算出的MS误差,才可以进行两两比较
参数检验
已知分布类型,对总体参数检验(灵敏,要求高)
卡方检验 (χ²检验)
适用于两个或多个总体率或构成比之间有无差别 数据为分类变量数据,即定性资料
四表格χ²检验
2×2(2组观察对象,对立2类结果)
自由度ν=(行数R-1)×(列数C-1)
χ²值反映了实际频数与理论频数的吻合程度
适用条件: 1.当n≥40且所有的T≥5时,用χ²检验的基本公式或四表格资料χ²检验的专用公式; 2.当n≥40且1≤T<5时,用四表格资料χ²检验的矫正公式; 3.当n<40或T<1时,用四表格资料的Fisher确切概率法(精确概率法)。
配对χ²检验
适用于样本量不是很大的资料
1.b+c≥40,基本公式 2.b+c<40,校正公式
非参数秩和检验
适用范围:1.分布未知或非正态分布 2.等级资料 3.数据两端无确定的数值
秩和检验(Wilcoxon)
基本步骤:1.建立检验假设,确定检验水准 2.编秩和(秩次之和)并球秩和统计量 3.确定P值,做出推断
统计推断
参数估计
抽样误差
由抽样造成的样本统计量与总体参数之间的差异
⑴个体存在差异,即各X–之间不同 ⑵随机抽样的误差,即X–与μ不同
均数的标准误 (绝对抽样误差)
反映样本均数之间变异的标准差
σₓ₋=σ/√n,sₓ₋=s/√n
标准误越小说明估计越精确
样本均数X–也服从正态分布,即X–的总体均数仍为μ, 样本均数的标准差为σ√n
参数估计
指由样本统计量估计总体参数
估计方式
点估计
是使用单一的数值直接作为总体参数的估计值
未考虑抽样误差的影响,无法评价其准确程度
区间估计
指按预先给定的概率,计算出一个区间,使它能够包含未知的总体参数
事先给定的概率1-α称为可信度(通常取0.95或0.99), 计算得到的区间称为可信区间或置信区间
置信区间的两个要素
1.可信度1-α
反映准确度
2.精确性
由区间的宽度反映精密度,越窄说明估计越精确
抽样误差分布规律 (总体均数的区间估计)
(一)Z分布
适用条件:1.大样本,n≥50 2.σ已知
作用:反映大样本的样本均数的抽样误差分布规律规律或抽样分布规律
z=X–-μ/σ√n
(二)t分布 (相对抽样误差)
适用条件:1.小样本,n<50 2.σ未知(定量变量中)
自由度ν越大,t分布曲线越接近标准正态分布曲线
t落在95%内
(X–-1.96σₓ₋,X–+1.96σₓ₋)
假设检验
亦称显著性检验,是统计推断的另一重要内容,其目的是定性比较总体参数之间有无差别或总体分布是否相同
基本步骤
(一)建立假设和确定检验水准
无效假设/原假设/零假设【H₀】
“阴性”结果,对应"等号式子"
备择假设/对立假设【H₁】
“阳性”结果,对应"不等号式子"
(二)选择检验方法和计算检验统计量
根据方法检验统计量值,计算P值
P越小越有理由拒绝H₀
(三)根据P值做出统计推断
若接受H₀:X–≠μ,则由抽样误差所致
若不接受H₀,则不拒绝H₁:X–≠μ₂,则由本质差别所致
注意!
1.假设是针对总体而言的
2.以H₀为中心,但H₀、H₁缺一不可
3.H₀通常内容为某一确定状态
4.单、双侧假设检验的设定
校准水准
亦称显著性水准,用α表示,是预先规定的拒绝域的概率值,实际中一般取α=0.05或α=0.01。
三要素
①根据样本所提供的信息(即样本的统计描述指标)
②基于特定的抽样误差分布规律
③以一定概率(一般为95%)
正态分布与医学参考值范围
正态分布
由两个参数决定
μ是位置参数,描述正态分布的平均水平
决定正态分布在X轴上的位置
σ是形状参数,描述正态分布的变异程度
决定正态曲线的分布形状
面积规律
①曲线下的面积即为概率
②曲线下的总面积为1或100%
③所有正态曲线,在μ左右的任意相同标准差倍数的范围内面积相同
标准正态分布
μ=0,σ=1
随机变量的标准化变换
z=X-μ/σ
医学参考值范围
从选择的参照总体中获得的所有个体观察值,用统计学方法建立百分位数界限,由此得到的个体观察值的波动区间。通常使用的是95%参考值范围。
意义
1.作为临床上判定正常与异常的参考指标
2.可以用来评价儿童的发育水平
注意事项
1.确定同质的参照总体
2.选择足够例数的参照样本
3.控制检测误差
4.选择单双侧界值
有些指标仅过大或过小为异常
5.选择适当的百分数范围
6.选择计算参考值范围的方法
公式以及计算过程要熟练
补
标准化率
系统误差
随机测量误差
矛盾
可信度↑,置信区间越宽
样本量↑,置信区间越窄
动态数列
1.概念:按照一定时间顺序,将一系列描述某事物的统计指标 (可以是绝对数、相对数或平均数)依次排列起来,观察比较。
2.作用:①计算三种指标,对定性资料进行统计描述; ②用平均发展速度对将来的发生情况进行预测(前提:V未来=V现在)
数据的表示
符合正态分布
(X–±s²)
(平均值>方差)
不符合正态分布
M(P₂₅,P₇₅)
医学统计学
绪论
什么是医学统计学
在医学领域,关于收集数据、分析数据和由数据得出结论的一组概念、原理和方法的学科。
医学统计的基本内容
统计工作基本步骤
1.设计
2.收集资料
3.整理资料
4.分析资料
医学统计中基本概念
同质与变异
同质
指观察单位或研究间具有相同或相近的性质,通常要求主要研究指标的影响因素相同或基本相同。
变异
指同种测量在总体中不同观察单位或个体之间的差别。
变量与数据类型
变量
是随机变量的简称,表示观察对象在性质、数量和程度等方面的特征。变量的观测值称为数据,也称为变量值。
数据类型
定量数据(计量资料)
定性数据(计数资料)
有序数据(半定量数据或等级资料)
注意辨析
数值型
有计量单位
例如:身高、体重、血压、温度等;家庭成员数、脉搏、白细胞计数等
定性
无计量单位
例如:性别(男/女)、血型(A/B/AB/O)等
定性
各类别有程度或顺序上的差别
例如:化验结果(-/+/++/+++)、治疗程度(显著/有效/好转/无效)等
总体和样本
总体
指研究对象的全体,它通常由所有的同质观察单位或个体组成。
样本
指从总体中选取的有代表性的一部分观察单位或个体,通常使用随机选取方法得到。
参数
描述总体特征的统计学指标。
统计量
由样本计算出的特征指标。
概率与概率分布
概率
描述随机事件出现可能性大小的定量度量。
随机事件
也称“不确定事件”:可能发生,也可能不发生的事件。与“必然事件”对比。
小概率事件
习惯上将P≤0.05的事件称为小概率事件,表示在一次随机抽样中发生的可能性很小
我们认为它很可能不发生
统计描述
定量数据
频数图表
频数表制作步骤
1.确定组数
2.确定组距
3.确定组限
4.确定组频
频数分布表和直方图的用途
1.作为陈述资料的形式,可以代替原始资料,便于进一步分析。
2.便于观察数据的分布类型。
3.便于发现资料中某些远离群体的特大或特小值。
4.当样本量比较大时,可用各组段的频率作为概率的估计值。
老师PPT版
①揭示频数分布类型(是否是正态分布)
对称分布和偏态分布
②揭示频数分布特征(平均水平、变异程度)
描述集中趋势的统计学指标
平均数
是描述一组观察值集中趋势或平均水平的统计指标。包括算数均数、几何均数和中位数等。
分类
算术均数(X)
适用于正态分布或近似正态分布的定量变量值
总体均数μ,样本均数x–
几何均数(G)
适用于呈倍数关系的等比资料
计算公式G=lg⁻¹(∑lgX/n)
如抗体滴度、血清凝集效价、细菌计数、某些物质浓度等
中位数和百分数
中位数(M)
百分位数
四分位数(Q)
P₂₅、P₇₅
百分位数
Pₓ
当资料为正态分布时,μ≈M,P₅₀=M
适用于 1.两端有特大,特小值 2.分布末端无确切数据 3.总体分布类型未知
描述变异程度的统计学指标
变异程度
一组观察值之间的差别或变化(或变动)程度大小
分类
极差(R)
适用于偏态分布,分布类型未知
四分位数间距(QR)
方差(Var)
适用于正态分布
总体方差σ²,样本方差s²
离均差平方和(SS)
描述了每个观测值相对于平均水平X–的离散程度
∑(X-X–)²
自由度
ν=n-1
表示在所有的n个离均差平方项中,由于样本均数X–的限制,只有n-1个离均差平方和是独立的
标准差
总体标准差σ,样本标准差s
变异系数(CV)
用于直接比较两个样本的变异程度,不受平均水平(或参照数据的平均值)影响
是描述相对离散程度大小的统计指标
CV=S/X–×100%
定性数据
相对数
率
表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度或频率。
说明某段时间内某现象发生的强度或频率,是强度指标
构成比
表示某事物内部各组成部分在整体中所占的比重,常以百分数表示。
说明构成成分,为构成指标
相对比(比)
是A和B两个有关联指标值之比,用以描述两者的对比水平。
两者可为绝对数、相对数或平均数,可同性质也可不同性质
常用相对数指标
死亡率
某年某地死亡人口总数/同年该地年平均人口数×1000%
病死率
某期间因某病死亡人数/同期该病的患病人数×100%
发病率
某时期某病新病例数/同期间内平均人口数×比例基数
患病率
某地某期间某病患病例数/该地同期内平均人口数×比例基数
相对数指标使用的注意问题
1.不要把构成比与率混淆
2.使用相对数时分母不宜过小
3.正确计算合计率
分子、分母分别相加(分母相近时,可直接除数)
4.注意资料的可比性
使用标准化法,将不同构成变为标准构成再进行比较
5.样本率或构成比存在抽样误差
进行假设检验,统计推断
假设检验方法
t检验
单样本t检验 (单样本均数t检验)
适用条件:1.指标为定量指标,服从正态分布 2.小样本
用于检验样本均数X–所代表的总体均数μ是否与已知总体均数μ₀有差别
配对样本均数t检验 (配对t检验)
适用条件:1.指标为定量变量值 2.每对差值d服从正态分布 3.小样本
实质是差值样本均数d–与已知总体均数μᵈ=0比较的单样本t检验
两独立样本t检验 (成组t检验)
适用条件:1.指标为定量变量值 2.有两组样本,且两组样本是独立的 3.两个样本分别来自的两个总体都服从正态分布 4.两个正态分布总体的总体方差是相等的(方差齐) 5.小样本
两样本量n₁、n₂可等可不等,尽量相等
方差分析 (F检验)
其基本思想是将全部观测值的总变异按影响因素分解为相应的若干部分变异, 在此基础上,计算假设检验的统计量F值,实现对总体均数是否有差别的统计推断。
若F≥Fα/2则P≤α,拒绝H₀,接受H₁,可认两总体方差不齐:反之,则认为两总体方差具有齐性
完全随机设计 (单因素方差分析)
基本步骤
1.建立假设:H₀:μᴀ=μʙ=μᴄ H₁:不全相同或全不相同
2.计算,列出方差分析表
3.界定P值,做结论
难点:计算上的分分合合
消除内、外部矛盾(组间、组内)
两两比较(多重比较)
q检验(SNK法)
需要完全随机设计中计算出的MS误差,才可以进行两两比较
参数检验
已知分布类型,对总体参数检验(灵敏,要求高)
卡方检验 (χ²检验)
适用于两个或多个总体率或构成比之间有无差别 数据为分类变量数据,即定性资料
四表格χ²检验
2×2(2组观察对象,对立2类结果)
自由度ν=(行数R-1)×(列数C-1)
χ²值反映了实际频数与理论频数的吻合程度
适用条件: 1.当n≥40且所有的T≥5时,用χ²检验的基本公式或四表格资料χ²检验的专用公式; 2.当n≥40且1≤T<5时,用四表格资料χ²检验的矫正公式; 3.当n<40或T<1时,用四表格资料的Fisher确切概率法(精确概率法)。
配对χ²检验
适用于样本量不是很大的资料
1.b+c≥40,基本公式 2.b+c<40,校正公式
非参数秩和检验
适用范围:1.分布未知或非正态分布 2.等级资料 3.数据两端无确定的数值
秩和检验(Wilcoxon)
基本步骤:1.建立检验假设,确定检验水准 2.编秩和(秩次之和)并球秩和统计量 3.确定P值,做出推断
统计推断
参数估计
抽样误差
由抽样造成的样本统计量与总体参数之间的差异
⑴个体存在差异,即各X–之间不同 ⑵随机抽样的误差,即X–与μ不同
均数的标准误 (绝对抽样误差)
反映样本均数之间变异的标准差
σₓ₋=σ/√n,sₓ₋=s/√n
标准误越小说明估计越精确
样本均数X–也服从正态分布,即X–的总体均数仍为μ, 样本均数的标准差为σ√n
参数估计
指由样本统计量估计总体参数
估计方式
点估计
是使用单一的数值直接作为总体参数的估计值
未考虑抽样误差的影响,无法评价其准确程度
区间估计
指按预先给定的概率,计算出一个区间,使它能够包含未知的总体参数
事先给定的概率1-α称为可信度(通常取0.95或0.99), 计算得到的区间称为可信区间或置信区间
置信区间的两个要素
1.可信度1-α
反映准确度
2.精确性
由区间的宽度反映精密度,越窄说明估计越精确
抽样误差分布规律 (总体均数的区间估计)
(一)Z分布
适用条件:1.大样本,n≥50 2.σ已知
作用:反映大样本的样本均数的抽样误差分布规律规律或抽样分布规律
z=X–-μ/σ√n
(二)t分布 (相对抽样误差)
适用条件:1.小样本,n<50 2.σ未知(定量变量中)
自由度ν越大,t分布曲线越接近标准正态分布曲线
t落在95%内
(X–-1.96σₓ₋,X–+1.96σₓ₋)
假设检验
亦称显著性检验,是统计推断的另一重要内容,其目的是定性比较总体参数之间有无差别或总体分布是否相同
基本步骤
(一)建立假设和确定检验水准
无效假设/原假设/零假设【H₀】
“阴性”结果,对应"等号式子"
备择假设/对立假设【H₁】
“阳性”结果,对应"不等号式子"
(二)选择检验方法和计算检验统计量
根据方法检验统计量值,计算P值
P越小越有理由拒绝H₀
(三)根据P值做出统计推断
若接受H₀:X–≠μ,则由抽样误差所致
若不接受H₀,则不拒绝H₁:X–≠μ₂,则由本质差别所致
注意!
1.假设是针对总体而言的
2.以H₀为中心,但H₀、H₁缺一不可
3.H₀通常内容为某一确定状态
4.单、双侧假设检验的设定
校准水准
亦称显著性水准,用α表示,是预先规定的拒绝域的概率值,实际中一般取α=0.05或α=0.01。
三要素
①根据样本所提供的信息(即样本的统计描述指标)
②基于特定的抽样误差分布规律
③以一定概率(一般为95%)
正态分布与医学参考值范围
正态分布
由两个参数决定
μ是位置参数,描述正态分布的平均水平
决定正态分布在X轴上的位置
σ是形状参数,描述正态分布的变异程度
决定正态曲线的分布形状
面积规律
①曲线下的面积即为概率
②曲线下的总面积为1或100%
③所有正态曲线,在μ左右的任意相同标准差倍数的范围内面积相同
标准正态分布
μ=0,σ=1
随机变量的标准化变换
z=X-μ/σ
医学参考值范围
从选择的参照总体中获得的所有个体观察值,用统计学方法建立百分位数界限,由此得到的个体观察值的波动区间。通常使用的是95%参考值范围。
意义
1.作为临床上判定正常与异常的参考指标
2.可以用来评价儿童的发育水平
注意事项
1.确定同质的参照总体
2.选择足够例数的参照样本
3.控制检测误差
4.选择单双侧界值
有些指标仅过大或过小为异常
5.选择适当的百分数范围
6.选择计算参考值范围的方法
公式以及计算过程要熟练
补
标准化率
系统误差
随机测量误差
矛盾
可信度↑,置信区间越宽
样本量↑,置信区间越窄
动态数列
1.概念:按照一定时间顺序,将一系列描述某事物的统计指标 (可以是绝对数、相对数或平均数)依次排列起来,观察比较。
2.作用:①计算三种指标,对定性资料进行统计描述; ②用平均发展速度对将来的发生情况进行预测(前提:V未来=V现在)
数据的表示
符合正态分布
(X–±s²)
(平均值>方差)
不符合正态分布
M(P₂₅,P₇₅)