导图社区 医学统计学
这是一篇关于医学统计学的思维导图,主要内容有绪论、定量数据的统计描述、正态分布与医学参考值范围、定性数据的统计描述等。
编辑于2022-07-17 20:15:46医学统计学
绪论
医学统计学
概念
针对医学研究观察单位间某变量的变异特点,利用数理统计和概率论的方法,研究医学数据收集、整理、分析,探讨事物分布特征和规律的一门学科。
研究对象
人体及人体健康有关的各种具有不确定性的医学数据,如变异、数量及同质
基本内容
统计设计——关键环节
分类
调查研究设计
实验研究设计
要求
科学、周密、简明
收集资料——主要一步
要求
及时准确、完整、可靠
整理资料
分析资料
统计描述
选用统计指标、统计图表描述特征及分布
统计推断
由样本信息推断总体特征
手段
参数估计
假设检验
基本概念
同质与变异
同质
指所观察的事物、现象的某一方面性质或特征相同
变异
指同质的事物、现象就某一方面的性质或指标来看仍然存在着差异
分类
个体变异:同质的事物、现象就某一方面的特征或同一观察指标来看,不同的观察单位之间有差异。
e.g. 不同女孩的身高
随机测量变异:同一个体多次测量,结果不完全相同
e.g.同一女孩多次测量身高各不相同
变量与数据类型
定量变量
观察单位的变量是定量的,表现为数值的大小
e.g. 年龄,人口数,身高等。
定性变量
用语言描述,对应的变量是定性的。
e.g. 学历、性别等。
特点
互不相容的类别和属性
有序分类变量(等级变量)
只取值的各类别之间存在着程度上的差异。——半定量
e.g. 学历
无序分类变量
二分类变量
取值为相互对立的两类
e.g.性别
多项分类变量
取值为互不相容的多个类型。
e.g. 血型
总体和样本
总体
根据研究目的确定的所有同志观察单位某种变量值(即观察值)的全体
分类
无限总体:总体中的个数是无限的,不可数的。
有限总体:总体中的个数是有限的,可数的。
样本
总体中随机抽取部分观察单位的某种变量值(或观测值)的集合
观察单位间的同质性是构成总体的必备条件,也是进行研究的基本前提
参数与统计量
参数:总体的统计指标,用希腊字母表示
统计量:样本的统计指标,用拉丁字母表示
误差
泛指实测值与真实值之差,包括样本指标和总体指标之间的差。
分类
随机误差
由于各种偶然因素的影响造成的
分类
随机测量误差
随机抽样误差
由于抽样而引起的样本统计量与总体参数间的变异
来源于个体变异
特点:
不恒定、随机变化、无方向性
遵从一定的规律
非随机误差
系统误差(常见)
由一些固定因素产生
特点:观察值有系统性、方向性、周期性的偏离真值
过失误差
研究人员的偶然失误
概率与频率
随机现象
同样条件下可能会出现两种或多种结果,具体结果,事先不能确定。
特点
随机性,规律性
频率
一次实验中一出现的事件的个数与该时间可能出现的个数之比。常用f表示
概率分布:
随机变量所有可能的取值与各取值下所发生概率之间的对应关系,用以全面的表述随机变量取值的概率。
概率
描述某随机事件发生可能性大小的度量。常用p来表示。
随机事件
0<p<1
小概率事件
p≤0.05——发生可能性小
概率与频率的联系与不同
联系
其取值范围与表示的意义一致
不同
概率用于总体,频率用于样本
基本运算法则
乘法法则
加法法则
条件概率
定量数据的统计描述
频数分布
频数表
确定组数,组距,组限,频数
直方图
描述集中趋势的统计学指标
常用描述定量资料集中趋势的统计指标——平均数,它反应一组观察值的集中位置和平均水平,可作为一组资料的代表值,用于不同组间的分析比较
算数均数
计算方法
直接法
加权法
特点
各个观察值与均数之差(离均差)的总和等于0
各个观察值离均差平方和最小
应用
反应一组同质观察值的平均水平
单峰对称分布
正态分布特征
几何均数
均数更适合对称分布
中位数与百分位数
中位数
不受极端值影响,适用于偏态分布或两端无确定数值时
百分位数
任何频数分布,尤其是明显偏态分布的资料
描述变异程度的统计学指标
极差
优缺点
优点
简单明了,最简单
缺点
稳定性差,只受极端值的影响
不全面考虑极端值之外数值的影响——粗略指标
应用
单峰对称分布,小样本资料
初步了解资料的变异程度
四分位数间距
明显偏态分布、开放性资料、分布不明的资料
方差
标准差
还原与原始数据相同的计量单位
变异系数
相差较大或单位不同
正态分布与医学参考值范围
正态分布
概念:若随机变量X服从一个数学期望为μ、方差为σ²的正态分布,记为N(μ,σ²)
特征
标准正态分布概念
位置参数与形状参数
μ=0;σ=1
医学参考值
医学参考值——正常值、正常值范围
指大多数正常人的人体形态,功能和代谢产物等各项生理、生化指标观察值的波动范围,一般在临床上用作判断正常和异常的参考值(意义)
医学参考值范围:从选择的参照总体中获得的所有个体观察值,用统计学方法建立百分位数界限,由此得到个体观察值的波动区间。
注意事项
确定同质的参照总体
选择足够例数的参照样本
控制检测误差
选择单双侧界值
选择适当的百分数范围
选择计算参考值范围的方法
计算方法
正态分布法
百分位数法
定性数据的统计描述
常用相对数
率
在一定空间或时间范围内某现象的发生数与可能发生的总数之比
构成比
值在0~1之间波动
某部分增加,另一部分必然减少,呈此消彼长的关系
相对比
A或B两个有关联指标之比,用以描述两者之间的对比水平
比数比
又称优势比,表示病例组和对比组中的暴露比例与非暴露比例的比值之比,是反映疾病与暴露因素之间关联强度的指标
标准化率:在比较两种不同人群的患病率、发病率、死亡率等资料时,为消除其内部构成对率的影响,可以使用标准化率。
相对数指标使用的注意问题
统计图与统计表
统计表
结构:标题,标目,线条,数字,备注
统计图
结构:标题,标目,刻度,图域,图例
描述定量数据的统计图
直方图
表示连续变量频数分布情况
线图
描述一个变量随另一个变量变化的趋势和波动情况
普通线图
半对数线图
描述研究指标变化的速度
箱式图
描述偏态分布资料
用于比较两组或多组数据平均水平和变异程度。
误差条图
用于比较多组资料的均值和标准差
散点图
两指标之间的关系
热图
森林图
描述定性数据的统计图
直条图
单式条图
复式条图
分组标志最好不超过三组
注意:
a.一般用横轴表示各分组,纵轴表示各分组对应的值
b.纵轴尺度必须从“0开始”,而且要等距
直条的宽度必须相等,间隔等距。
构成图——用于描述构成比资料
圆图
百分条图
参数估计与假设检验
参数估计
均数的标准误
反映样本均数之间变异的标准差
可信区间:区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体参数。事先给定的概率1-α称为可信度,计算得到的区间称为可信区间。
总体均数的区间估计
假设检验
定性比较总体参数之间有无差别或总体分布是否相同
基本步骤
建立假设和确定检验水准
选择检验方法和计算检验统计量
根据P值做出统计推断
两类错误
第Ⅰ类错误
抽样误差
第Ⅱ类错误
真实情况与假设不一致,检验统计量的值却落到了接受域
检验效能:指当不同总体间确实有差别时,按规定的检验水准α能发现其差别的概率,其值为1-β。
检验假设与区间估计的关系(问答)
t检验
应用范围
正态性,方差齐
小样本(n<50),总体方差未知
样本取自正态分布,总体方差相等
定量资料
单样本t检验
两独立样本均数比较的t检验
T检验中的注意事项
方差分析(F检验)
基本思想
将总变异分解为2个或多个部分,除随机误差外,各部分的差异可由某个因素的作用加以解释
通过比较不同来源的变异,利用F分布做出统计推断,若F大于某个临界值,表示组间差异不同
X²检验——定性资料检验
概念
主要用于分析分类变量数据的假设检验方法,该方法主要目的是推断两个或多个总体率或构成比之间有无差别。
四格表资料的卡方检验
原理
专用方式
矫正公式
非参数秩和检验
概念
参数检验方法
在总体分布已知的前提下对参数进行的假设检验,如样本均数比较的t检验、方差分析等。
非参数检验方法
是一种不依赖总体分布类型,也不涉及总体参数,而是对总体分布的位置进行假设检验的方法。
配对设计资料的符号秩和检验
两独立样本比较的秩和检验
查表法
正态近似法
多个独立样本比较
W-K检验或H检验