导图社区 医学统计学思维导图
医学统计学思维导图,知识点涵盖了变量和变量值、同质和变异、总体和样本、数值变量资料、分类变量资料、统计工作基本步骤。
编辑于2021-11-04 00:44:10医学统计学的基本内容
基本概念
变量和变量值
变量是指研究对象中每一个观察单位的某项特征
定性
定量
对变量的观测结果成为变量值
同质和变异
同质是指观察单位或观察指标受共同因素制约的部分
同质个体间的差异称变异
总体和样本
总体是指根据研究目的所确定的同质观察单位的全体
样本是指从总体中随机抽取部分观察单位其某项观察值的集合
参数与统计量
描述总体特征的量称为参数
根据样本个体值计算得到的描述样本特征的量称为统计量
误差
观测值与真值之差
抽样误差
抽样引起的不可避免的误差
概率
≤0.05的事件称为小概率事件,表示某事件发生的可能性很小
认为小概率事件在一次实践中是不可能发生的
统计资料类型
数值变量资料
又称计量资料、定量资料
统计分析
统计描述
用于描述频数分布的特征,包括集中趋势和离散趋势
编制频数分布表和绘制频数分布图
1.确定极差
观察之中的最大值和最小值之差成为极差或全距,用R表示
2.定组距
组段数的多少主要根据研究目的及观察例数确定
各组段的起点和终点分别成为组段的下限和上限,相邻两组段下限值之差称组距
组距的确定一般是用极差除以组段数得出近似的组距,再根据专业习惯和便于阅读与计算的原则适当调整
3.写组段
4.写频数
集中趋势的描述
算术均数
总体均数用μ表示,样本均数用`x表示
应用条件
适用于描述对称分布,尤其是正态分布或近似正态分布的数值变量资料的平均水平
计算方法
直接法
`x=ΣXi/n
加权法
`x=ΣfiXi/Σfi=Σfx/n
几何均数
用G表示
应用条件
成倍数关系的等比计数资料。常用于求抗体的平均滴度、平均抗体效价
计算方法
直接法
G=lg-1(ΣlgXi/n)
加权法
G=lg-1(ΣfilgXi/Σfi)
中位数与百分位数
中位数
位置指标,M表示
百分位数
位置指标,Px表示第x百分位次的数值
Px=L+i(n*x%-ΣfL)/fx
L:Px所在组段下限、i:组距、fx:频数、n:总位数、ΣfL:小于L的各组段的累计频数
应用条件
分布不明
分布末端无确定值
偏态分布
离散趋势的描述
四分位数间距
用Q表示,即上四分位数与下四分位数之差,P75-P25,即QU-QL
四分位数间距越大,说明资料的离散程度越大
适用于偏态分布
标准差
方差的算术平方根
总体用σ表示,样本用s表示
适用于正态分布或近似正态分布
计算方法
直接法
s=√((Σ〖(x-x ̅)〗^2)/(n-1))
加权法
s=√((Σ〖fx^2-((Σfx))/n〗^2)/(Σf-1))
变异系数
CV表示,标准差与算术均数之比,描述观察值的变异相对于其平均水平的大小
适用于比较度量衡单位不同的或均数相差悬殊的多组资料的变异程度
CV=s/x ̅ ×100%
分布
正态分布
一种连续型随机变量常见而重要的分布
标准正态分布/z分布/u分布
z~N(0,1)
标准化变换
z=(x-μ)/σ
特征
正态曲线在横轴上方,钟形,两端与横轴永不相交
正态分布以均数为中心,均数所在处最高,左右对称,正态曲线在X=μ±σ处有拐点
正态分布有两个参数,即均数与标准差
N(μ,σ)
μ:函数位置
σ:函数形态
正态分布曲线下的面积分布有一定的规律性
-1~1→68.27%
-1.96~1.96→95.00%
-2.58~2.58→99.00%
-1.645~1.645→90.00%
-2.33~2.33→98.00%
参考值范围
“正常”人体(或动物)的各种解剖、生理、生化、免疫指标或体液、排泄物中各种代谢产物含量等数据中绝大多数个体取值所在的范围
基本步骤
从正常人的总体中进行随机抽样
对选定的正常人进行准确的测定
确定取单侧范围还是双侧范围
根据指标的实际用途和专业知识而定
选择适当的百分范围
绝大多数正常人的某指标值范围
根据资料的分布类型选用恰当的估计方法
正态分布法
适用于正态或近似正态分布
x ̅±μ_α s
百分位数法
适用于非对称分布的资料
Px
统计推断
标准误
样本均数的标准差称为均数的标准误
描述均数的抽样误差大小的统计指标
计算公式
σ_x ̅ =σ/√n
t分布
在实际工作中σ_x ̅ 往往是用s_x ̅ 来估计的,这时对正态变量`x采用的是t变换
t=(x ̅-μ)/s_x ̅ =(x ̅-μ)/(s/√n)
自由度ν=n-1
自由度越小,曲线越扁平
自由度无穷大时,t分布曲线与标准正态曲线完全吻合
参数估计
点估计
可信区间估计
以预先给定的概率(置信度)估计总体参数所在范围的方法称为区间估计。根据一定的置信度进行估计得到的区间,称为置信区间(CI)
u分布法
x ̅±μ_α s_x ̅
σ已知
σ未知,但n足够大(n≥100)
t分布法
x ̅±t_αν s_x ̅
σ未知,且n较小
假设检验
零假设(无区别假设),H0
μ1=μ0
对立假设,H1
单侧检验
μ1>μ0
μ1<μ0
双侧检验
μ1≠μ0
检验水准用α表示,常取0.05
基本步骤
建立假设,确定检验水准α
H0
H1
α
选定检验方法和计算检验统计量
确定P值和作出推断结论
当P<α时,按α=0.05水准,拒绝H0,接受H1,故可以认为。。。
当P>α时,按α=0.05水准,不拒绝H0,拒绝H1,故尚不能认为。。。
两样本资料
t检验和z检验
单样本资料
样本均数与总体均数的比较
z和t相同:t=(x ̅-μ0)/s_x ̅ =(x ̅-μ0)/(s/√n),ν=n-1
配对样本资料
z和t相同:t=(d ̅-0)/s_d ̅ =(d ̅-0)/(s_d/√n),ν=n-1
自身比较
同一受试对象的两个部位测同一个指标
同一样品两种方法测同一指标
每个对子两种处理
两独立样本资料的t检验和z检验
完全随机设计的定量资料的两样本均数的比较
t检验
t=(x ̅_1-x ̅_2)/s_(x ̅_1-x ̅_2 ),ν=n1+n2-2
s_(x ̅_1-x ̅_2 )=√(〖s_c〗^2 (1/n1+1/n2))
〖s_c〗^2=(〖s_1〗^2 (n1-1)+〖s_2〗^2 (n2-1))/(n1+n2-2)
z检验
z=(x ̅_1-x ̅_2)/s_(x ̅_1-x ̅_2 )=(x ̅_1-x ̅_2)/√(〖s_(x_1 ) ̅ 〗^2+〖s_(x_2 ) ̅ 〗^2 )=(x ̅_1-x ̅_2)/√(〖s_1〗^2/n_1 +〖s_2〗^2/n_2 )
t检验应用条件
服从正态分布
σ未知,n较小
两样本均数比较时,要求两总体方差相等,即方差齐性
多样本资料
方差分析
两类错误
Ⅰ类错误
拒绝了实际上成立的H0
犯错概率为α
Ⅱ类错误
不拒绝实际上不成立的H0
犯错概率为β=1-α
分类变量资料
又称定性资料
无序分类变量(计数资料)
有序分类变量(等级资料)
统计分析
统计描述
率
在一定观察时间内,某现象实际发生数与可能发生该现象的总数之比,用以说明某现象发生的频率或强度
总体率用π表示,样本用p
构成比
某事物内部某一部分的观察单位数与该事物内部各组成部分的观察单位数总和之比,用以说明事物内部各部分所占的比重或分布
各部分总和为1
相对比
两个有关指标之比,说明两个指标的比例关系
统计推断
率的标准误
s_p=√p(1-p)/n
可信区间估计
正态近似法
当样本含量n足够大,样本率p或1-p均大于5(即发生数和未发生数均大于5),近似正态分布
p±z_α/2·s_p
查表法
当n较小,如n≤50,特别是p接近于0或1时,按二项分布原理估计总体率的置信区间
假设检验
z检验
两样本
样本率与总体率比较
z=(p-π)/σ_p =(p-π)/√((π(1-π))/n)
两个样本率的比较
z=(p_1-p_2)/s_(p_1-p_2 ) =(p_1-p_2)/√(p_c (1-p_c)(1/n_1 +1/n_2 ))
p_c=(X_1+X_2)/(n_1+n_2 )
无序分类变量
卡方检验
两个和多个的比较
c^2值反映了实际数A与理论值T的吻合程度
值的大小与自由度ν有关
ν=(行数-1)(列数-1)
两个
四格表
A为实际频数,及每个基本格子的实际发生数
T为理论频数,实在检验假设(H0:π1=π2)成立的前提下基本格子的频数
T_RC=(n_R n_C)/n
c^2=Σ 〖(A-T)〗^2/T
基本公式
专用公式
c^2=(ad-bc)^2·n/(a+b)(c+d)(a+c)(b+d)
α取0.05,ν为1时,c^2值为3.84
规定
n≥40,且每一格T≥5时,直接计算c^2值
n≥40,且有一格1≤T小于5时,需对c^2值进行校正
n<40或有一格T<1时,不能用c^2检验,用Fisher精确概率法
配对四格表
配对设计分类变量的检验
只检验b、c,c^2=(b-c)^2/(b+c)
b+c<40时,需要校正
c^2=〖(|b-c|-1)〗^2/(b+c)
多个
行×列表(R×C)检验
主要用于多个样本率、两个或多个构成比的比较
c^2=n(Σ A^2/Tn_R n_C-1)
有序分类变量
秩和检验
统计工作基本步骤
1、设计
专业设计
统计设计
保证按研究目的要求获得可靠的研究结果
2、收集资料
统计报表和报告卡
日常医疗卫生工作记录
专题调查或实验研究
3、整理资料
对原始数据进行核对和检查
根据研究目的要求,将原始数据合理分组
按分组要求设计整理表,汇总资料
4、分析资料
统计描述
数值变量资料
分类变量资料
统计推断
参数估计
假设检验
z(u)检验
t检验
方差分析
c^2检验
秩和检验
偏态分布
分布类型不明
有序分类变量资料
一端或两端无确定值的资料
方差不齐的资料