导图社区 医学统计学
这是一篇关于医学统计学的思维导图,包含定量数据的统计描述、定性数据的统计描述等。
编辑于2023-11-20 10:40:27医学统计学
绪论
1.基本概念:
总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:
(1)定量资料:计量资料
(2)分类资料:
①计数资料:
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类
②等级资料:
成组设计与配对设计
配对设计
1.配对的两个受试对象分别接受两种不同的处理
2.同一受试对象接受两种不同的处理
3.同一受试对象处理前后的结果进行比较(即自身配对)
4.同一受试对象的两个部位给予不同的处理
成组设计
将受试对象随机分配成两个处理组,每一组随机接受一种处理.
定量数据的统计描述
频数表和直方图的作用:用于观察个数较多资料的统计描述,可以直观提示资料的分布特征和分布类型。
集中趋势、离散趋势的指标及适用范围
集中趋势
集中趋势
算术均数 适用于对称分布————不适用于偏态分布和资料中出现极值的资料
几何均数G 适用于呈倍数关系的资料或对数正态分布的资料,尤其是正偏态分布————不适用于观察值中有0 或正负数值同时出现的资料
中位数M 适用于大样本偏态分布; 分布情况不明的资料;资料中有不确定数值的资料
百分位数Px 多个百分位数结合使用,全面描述数据分布的特征————用于确定医学参考值范围 (偏态或分布不明的资料)
众数M0 适用于大样本,较粗糙
离散趋势
极差R
优点:简单明了、容易使用。
缺点:
①只反映最大值和最小值间的差异,不能反映其他观察值的变异程度。
②样本容量越大,极差可能越大。
③极差的抽样误差大,不稳定。
四分位数间距Q 适用于确定医学参考值范围, 与中位数一起描述偏态分布资料变异程度
方差与标准差S 与均数一起描述对称分布,特别是正态分布或的分布特征
变异系数CV ①适用于比较度量衡单位不同资料的变异度。 ②比较均数相差悬殊的资料的变异度。 ③衡量实验精密度和稳定性的常用指标。
频数分布特征
高峰在中间,左右大致对称,称为对称分布。 平均数=中位数=众数
高峰偏向小值的一侧(左侧),称正偏态分布(亦称右偏态)。 平均数>中位数>众数
高峰偏向大值的一侧(左侧),称负偏态分布(亦称左偏态)。 平均数<中位数<众数
均数&标准差========正态或近似正态分布
中位数&四分位数间距===偏态分布
几何均数&对数标准差===对数正态分布
定性数据的统计描述
常用相对数
率:说明某现象发生的频率或强度。(病死率不等于死亡率)
构成比:说明某现象内部组成部分所占的比重或分布,常以百分数表示。
相对比:亦称比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几。两个指标可以性质相同,也可以性质不同。
标准化率
比较两种不同人群的患病率、发病率、死亡率等资料,用以消除其内部构成(年龄、性别、工龄、病程长短、病情轻重)对 率 的影响
唯一作用:比较(不可用于反映实际水平)
注意事项:
1、计算相对数的分母不宜过小;
2、分析时不能以构成比代替率;
3、对观察单位数不等的几个率,不能直接相加求其平均率;
4、比较相对数时应注意其可比性;
5、对样本率(或构成比)的比较应遵循随机抽样,并做假设检验。
统计表与统计图
统计表
结构:由标题、标目、线条和数字构成。
编制统计表的要求:
①标题:概括表的内容,列于表的上方居中,应注明时间和地点;
②标目:主语和谓语分别列于横、纵标目,文字简明,层次清楚。横标目列于表的左侧,通常为被研究的事物,纵标目列于表的上端,为说明横标目的统计指标。
③线条:通常,除表的顶线、底线、纵标目下以及合计上的横线外,其余线条均省去,顶线和底线应略粗些,表的左上角不宜用斜线。
④数字:用阿拉伯数字表示,同一指标的小数位数要一致并对齐,数字暂缺或无数字者分别用“…”或“-”表示,数字为0者要记作“0”,不应空项,为方便核实和分析,应有合计。
⑤备注:一般不列入表内,必要时可用“*”标出,列于表下。
统计图
直方图:表示连续性资料的频数分布;直条矩形面积代表各组频数
线图:用于连续性资料,用于说明事物在时间上的发展变化,或某现象随另一现象而变动的情况;
半对数线图:研究指标变化的速度
箱式图
比较两组或多组数据的平均水平和变异程度
各组数据均可呈现其平均水平、四分位数间距Q(箱体长度)、最值、中位数(中间横线)、P75\P25(两端)
箱体越长数据离散程度越大
主要适用于描述偏态分布的资料
误差条图:用于【相互对比关系】的资料;
②圆图与百分条图:适用于【百分构成比资料】,表示事物各组成部分所占的【比重或构成】;
⑤散点图:适用于直线相关分析,说明两个变量间的数量关系和变化趋势。
数估计与假设检验
参数估计
标准误
中心极限定理
t分布
图形特征
1.以0为中心,左右对称的单峰分布的一簇曲线
2.其形态变化与n(确切地说与自由度ν)大小有关。
自由度ν越小,t分布曲线越低平
自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
自由度ν无穷大,t分布呈标准正态曲线
{P230} —— t分布界值表
表中数据表示t值大小
t 分布与正态分布比较
①都是单峰、对称分布
②t 分布峰值较低,而尾部较高
③随自由度增大,t 分布趋近与标准正态分布;当ν趋向∞,t 分布的极限分布是标准正态分布。
置信区间(可信区间)——求总体均数μ
两要素
准确度:由1-α决定,1-α 越大,准确度越高。
精确度:由区间长度决定。
99%置信区间准确度高于95%置信区间。95%置信区间精确度更高。
e.f. 参考值范围&总体均数95%的可信区间
【总体均数估计的95%可信区间】 该区间包括总体均数μ的概率为95%。
做100次抽样算得100个可信区间,平均有95个可信区间包括μ(即:估计正确),5个可信区间不包括μ(即:估计错误)。
95%【可信度】为估计正确的概率。
【总体均数】的区间估计(单个正态总体均数μ的区间估计)
【两总体均数差值】的区间估计
求得结果的可信区间包含0,则无显著差异
e.g. 用于比较两种药物疗效的差别
【两总体率差值】的区间估计
假设检验
(1)基本思想
(2)基本步骤
1。建立假设,确定检验水准
H0:无效假设,差异存在但不显著或差异无统计学意义
H1:备择假设,差异显著或差异有统计学意义
双侧:只关心是否相等
单侧:关心某一方是否大于另一方
样本均数与已知的总体均数μ0比较
样本均数μ1与样本均数μ2比较
检验水准/显著性水准α
2。在原假设成立条件下,选择统计方法并计算检验统计量。(认为误差由抽样产生)
这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。
对双样本资料,要注意区分【成组设计】和【配对设计】的资料类型。
3。根据P值做出统计推断
判断P值: (与界值比较,反查界值表确定范围,软件计算)
统计量:u检验得到的是u统计量或称u值;t检验得到的是t统计量或称t值;方差分析得到的是F统计量或称F值
将求得的统计量绝对值与界值相比,可以确定P值。
若P>a,则接受H0,拒绝H1;若P<a,则拒绝H1,接受H0
当α=0.05时,
u值要和u界值1.96相比较,确定P值。
如果u<1.96,则P>0.05.
反之,如u>1.96,则P<0.05.
t值 要和某自由度的t界值相比较,确定P值。
如果t值<t界值,故P>0.05.
当P>0.05时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。
反之,如t>t界值,则P<0.05.
当P<0.05时,拒绝零假设,接受备择假设,认为差异有统计学意义,也可以理解为二者存在质的区别。
单侧检验更容易出现阳性
即单侧检验显著,双侧检验未必就显著,而双侧检验显著,单侧检验必然会显著。
但即使检验结果是P<0.01甚至P<0.001,都不说明差异相差很大,只表示更有把握认为二者存在差异。
两类错误
【检验水准】【第一类错误概率】
用α表示
可取单尾也可取双尾,通常取0.05或0.10
检验水准说明了该检验犯第一类错误的概率
【第二类错误概率】
用β表示
只取单尾,β值可计算
【检验效能】1-β
为什么P<α就是拒绝H0
第一类错误,也就是拒绝正确的原假设。显著性水平a既是拒绝原假设的所能容忍的最高水平,也就是第一类错误的所能容忍的最大概率。p是拒绝原假设的最低要求。p如果>a,即衡量检验结果设定的最大显著度都要小于拒绝原假设所要求的最低水平。也就是说,我要求的最低都要大于设定的最高,因此, 则不能拒绝原假设。