导图社区 医学统计学
医学统计学知识梳理,包括医学统计工作的基本步骤、总体均数的估计、统计图与统计表、统计资料的类型等等。
编辑于2022-10-19 19:04:21 新疆医学 统计学
t检验
医学统计工作的基本步骤
设计
搜集资料
整理资料
分析资料
统计分析
统计描述
定量资料的统计描述
通过分布表和直方图可以大致 看出观察值的形态和特征。
频数表 1组数 2组距 3组限 4频数(确定)
频数分布表
用途
作为陈述资料的形式。
便于观察数据的分布类型。
便于发现资料中含有的异常值。
可用各组段的频率作为概率的估计值。
频数分布类型
对称分布
偏态分布
正偏态分布(往左)
负偏态分布
频数分布特征
集中趋势
离散趋势
集中趋势的描述
平均数
算术均数
几何均数
中位数
统计推断
定量资料
定量方法测定得到有 大小之分,有度量衡单位
集中趋势
算数均数
常用以描述一组服从正态分布或近似正态分布资料的平均水平。
离均差平方和为最小
几何均数
反映一组成倍数关系的观察值的平均水平。
适用:数据呈正偏态分布,经对数转换后呈正态分布多用于观察值之间呈倍数关系。
中位数
资料的分布呈明显偏态,特别是负偏态。
可用于任何分布的定量资料。
分部的一端或两端无确定的数值
资料的分布不清。
注:在完全对称的单峰曲线分布中,同一组资料中位数与算数均数相同。
百分位数
离散趋势
全距/极差
R=最大值-最小值
四分位数间距
QR=P75-P25
常和中位数结合便用描述数据的分布规律
方差
离均差平方和
总体方差
自由度
是随机变量,可以“自由”取值的个数。
标准差
总体标准差
样本标准差
变异系数
应用范围 比较度量衡单位不同的多组资料的变异度 比较均数相差悬殊的多组资料的变异度
意义:变异系数越大,表示数据变异越大
正态分布
μ为总体均数,为标准差
特征
①以x=μ为中心,呈钟性分布,在x=μ处fχ取最大值 ②正态分布,以均数为中心,左右对称。 ③正态分布有两个参数即均数和标准差。 ④生态分布由μ和σ为形状参数。 ⑤正态曲线在±1σ各有一个拐点 ⑥正态分布的面积有一定的规律性。
正态分布与标准正态分布变换
医学参考值范围
正态分布法
要求资料服从/近似服从正态分布
百分位数法
要有较大样本含量,否则结果不稳定。
定性资料
相对数:计算意义,主要是把技基数比 作相等,便于互相比较
相对比
=A指标/B指标×100% (注:指标ad是相互独立的,不具有包含,被包含的关系)
特点:灵活 可以两个绝对数,相对数或平均数之比,单位可以相同,也可以不同
统计学意义
当性质相同的两个指标比较时:相对比说明A是B的多少倍或几分之几, 当性质不同的两个指标之比,相对比表示相对指标B时,A的情况
相对危险度(RR) 流行病学前瞻性研究中常用指标 反映暴露组发表或死亡的危险,是非暴露组的多少倍, 说明疾病与暴露之间的关联强度
比值比(OR)
表示病例组和对照组中暴露比例与非暴露的比例的 比值之比是反映疾病与暴露之间关联强度的指标。
构成比
事物内部组成部分的构成比越大,说明它所占的比重越大,它出现的观察单位数也越多。
=某一组成部分的观察单位数/同一事物各组成部分观察单位总数×100%
率
表示某现象发生的频率和强度
分子,分母一定是同质的
比例基数K。
a,根据习惯
b,根据分母的大小。
c,算得相对数的大小(至少保留一位整数)
率=某现象实际发生数/总发生数×K
患病率
患某病的人数/调查总人数×K
发病率
某病新发病例人数/调查总人数
病死率
某时间因某病死亡人数/同期该病的患病人数×100%
治愈率
治愈病人数/接受治疗病人数×100%
死亡率
某年某地死亡人口数/同年该地区年平均人口数×100%
年龄别死亡率
某年某地某年龄组死亡人数/某年该地同年龄别平均人口数×100%
应用相对数应注意的问题。
一计算相对数的分母不宜过小。 二分析时不能以构成比代替率,也不能以构成比的动态分析代替率的动态分析 三计算观察单位不等的几个率的平均律或合格率时,不能将几个率直接相加,求其平均律率 四资料的对比应注意可比性 五对样本的比较应遵循随机抽样,要做假设检验。
标准化
意义
当两组资料进行比较时,若内部不同小组率有明显差别,各小组内部构成比也明显不同,直接比较不合理。 标准化法的基本思想:采用统一的标准构成,以消除构成不同对各组总率的影响,使求得的标准化率具有可比性。 标准化率也称调整率,经标准化处理后的率
计算标准化率
直接法/间接法
标准化时的注意事项
1内部构成不同的率比较时,应标准化后再进行比较,选定的标准不同,算得的标准化率也不同,但比较几个标准化率时应采用统一标准。 2标准化后的率并不代表率的实际水平,只能表示相互比较资料间的相对水平。 3各组分率大小交叉出现时,则不宜采用标准化法处理,如不能计算标准化率而分别比较各组的率,也可得出正确结论,但不能比较总率的大小。 4两样本标准化率是样本值存在抽样误差,若想得出标准化组合被标准化组的总率是否相等的结论,还应做假设检验。
有序数据
等级资料
半定量
统计图与统计表
统计图
结构:标题,标目,刻度,图域,图例
一个统计图通常只表示一个中心内容和一个主题既一个统计指标
类型
描述定量数据的统计图
直方图
表示连续变量频数分布情况
纵轴的刻度必须从零开始
矩形高度=组段频数/组距。
线图
描述一个变量随另一个变量变化的趋势
适用于描述一个变量,随另一个变量变化的速度
纵轴刻度可以不从零开始
类型
单式线图
复式线图
厢式图
用于比较两组或多组资料的集中趋势和离散 趋势,主要是用于描述偏态分布的资料
不一定从0开始
散点图
用点的密集程度和变化趋势表示两指标之间直线或曲线的关系
热图
森林图
误差条图
用于比较多组资料的。均值和标准差(或标准误,可信区间), 用线条的高度表示均值的大小
纵横轴尺度必须从0开始
均值的各直条宽度要相等,直线之间间隔不必等距
描述定性数据的统计图
直条图
纵轴必须从0开始且要等距
用等宽直条的长度来表示相互独立的统计指数值大小来描述他们的关系
构成图
用于描述构成比资料
圆图
统计表
结构:标题,标目,线条,数字,备注
作用
代替冗长的文字叙述简明有条理的罗列数据与统计量,方便阅读比较与计算
展示数据的结构分布和主要特征,便于再进一步分析选择与计算统计。
种类
简单表 复合表
总体均数的估计
参数估计
抽样误差:由于个体变异与抽样的影响,抽得的样本均数不可能等于总体均数, 造成样本统计量与总体参数间的差异,表现为来自同一总体的若干样本统计量之间的差异
抽样误差是不可避免的,是有规律的。
样本均数的抽样分布
均数的标准误
均数的标准误越大,样本均数的分布越分散。样本均数离总体均数就越远,样本均数与总体均数的差别越大,抽样误差越大,抽样误差越大,由样本均数估计总体均数的可靠性越差,反之亦然
影响抽样误差大小的因素
标准差(同质性) 样本含量 实际工作中可通过适当增加样本含量来减少均数的标准,误从而降低抽样误差
t分布
t分布的特征
t分布为一簇单峰分布曲线。 t分布以零为中心,左右对称。 t分布与自由度有关。自由度越小,T分布的分越低,两侧尾部翘得越高。 t分布曲线下的尾部面积(概率)__t界值表
t界值表的特点
统一自由度下t值越大,则P值越小。 P值相同的自由度越大,则t值越小。 在相同的t值时,双侧概率为单侧概率的两倍。自由度趋近于无穷大时,t界值为Z界值
总体均数估计
点估计
区间估计
可信区间
区间估计是指按预先给定的概率,计算出一个区间,使他能够包含未知的总体参数。 事先给定的概率1-α称为可信度,计算得到的区间称为可信区间。
假设检验
是用来判断样本与样本,样本与总体的差异是由抽样误差引起的,还是本质差别造成的推断方法
基本思想 小概率事件
基本步骤
建设假设H0和H1,确定单双检验
确定检验水准α
选择检验方法计算检验统计量
确定P值
作出推断结论
两类错误
Ⅰ: H0为真时,拒绝H0
Ⅱ: H0为不真的,不拒绝H0。
假设检验的功效
如果两个总体数间确实存在差异,使用假设检验方法能够发现这两种差异 (即拒绝)的能力称为检验效能,一般情况下要求检验效能在0.8以上。
注意事项
①要有严密的研究设计 ②正确选用检验方法 ③单双侧检验的选择 ④ 对差别有无统计学意义的判断 ,不能绝对化 ⑤ 正确理解P值和“显著”的含义。
统计资料的类型
基本概念
变量
变量值
对变量的观察结果称为变量值或观察值
变异与同质
变异是绝对的,普遍存在的,所以才有必要进行统计研究,这是统计的前提条件。
同质性
总体
具有三个特性 变异性,大量性,同质性。
样本
总体中随机抽取部分观察单位某项观察值的集合
样本信息推论总体特征的前提
样本的可靠性 样本的代表性
样本例数n/样本含量
样本中的观察单位
抽样
随机抽样。
为了保证样本的可靠性和代表性,需要采用随机抽样的方法, 以保证总体和每个个体都具有相同机会被抽到。
方法
1单纯随机 2系统随机 3整群随机 4分层
目的
用样本信息来推断总体特征
误差
系统误差
具有方向性,系统性/周期性的偏离真值
随机误差
是由抽样引起的总体参数与样本统计量之间, 样本统计量与样本之间的差别(不可避免)
过失误差
参数
根据总体中全部个体值计算出来的描述总体特征的指标
总体参数
反映总体数量的指标,其数值是唯一的,确定的。
统计量
根据样本中个体计算出来的描述样本特征的指标
样本统计量
根据样本分布计算的指标(随机变量)
频率
概率
作为一常数是固定不变的。