导图社区 医学统计学
医学统计学是临床医学,基础医学,公共卫生学和医疗卫生服务研究中的一门基础学科,是关于收集数据、分析数据和由数据得出结论的一组概念,原则和方法。医学生医学统计学期末整理 Ps公式可能格式有误,仅供参考。
编辑于2023-12-27 13:48:05医学统计学
第一章 绪论
医学统计学的作用
医学统计学是临床医学,基础医学,公共卫生学和医疗卫生服务研究中的一门基础学科,是关于收集数据、分析数据和由数据得出结论的一组概念,原则和方法。
医学统计学的基本内容
统计设计
数据整理与核查
统计描述
统计推断
参数故居
假设检验
医学统计学的基本概念
同质与变异
同质:指观察单位或研究个体间具有相同或相近的性质,通常要求主要研究指标的影响因素相同或基本相同
变异:是指同一测量在总体中不同观察单位或个体之间的差别。
变量与数据类型
变量是随机变量的简称,可用于表示观察对象在性质,数量和程度等方面的特征,不同的变量可以取不同的数值,变量的观测值称为数据。
类型
定量数据(计量资料):观测结果是数值型的,例如白细胞计数
定性数据(计数资料)例如男女 血型的ABO
有序数据(半定量数据/等级资料):虽是定性的,但是各类别之间有程度活顺序上的差别,例如有效,好转,无效
二分类定性数据:正常与异常 多项有序分类资料:四个等级的……
总体和样本
总体:指研究对象的全体,它通常由所有的同质观察单位或个体组成。
样本:是从总体中选取的有代表性的一部分观测单位或个体,通常使用随机选取方法得到
参数:描述总体特征的统计学指标 统计量:由样本计算出的特征指标
误差
系统误差:由一些固定因素(仪器未归零校正) 可消除/避免
随机误差:偶然因素影响,也会对同一测量对象多次测量结果不完全相同,但是误差服从正态分布 可通过多次测量对真实值进行比较准确的估计 不可避免
抽样误差:由于抽样而引起的样本统计量与总体参数间的差异。 不可避免 一般来说,同一总体进行抽样,样本含量越大,抽样误差越小,样本统计量与总体参数越接近
概率与概率分布
概率是描述随机事件出现可能性大小的定量度量 随机事件:在一次实验中可能发生也可能不发生都事件,其发生概率0≤P≤1 概率分布表示随机变量所有可能取值与各取值下所发生概率之间的对应关系 习惯上将P≤0. 05都事件称为小概率事件
第二章 定量数据的统计描述
频数分布
频数表
制作步骤 (计算全距)1.确定组数 2.确定组距 3.确定组限 4.确定频数
直方图
正态分布 正偏态分布:高峰左移 负偏态分布:高峰右移
描述集中趋势的统计学指标
算数均数/均数 X(上划线) 描述正态分布的集中趋势
几何均数 G 医学中特殊资料 例如抗体滴度 其数据特点是观察值间按倍数关系变化
中位数M 百分位数Px 不受极端值影响 适合描述偏态分布都集中趋势 其中中位数最好 百分位数可以用来描述资料的观察值序列在某百分位置的水平
描述变异程度的统计学指标
极差 R R=Xmax-Xmin 描述偏态分布的离散趋势
四分位数间距 Q Q=P75-P25 偏态分布
方差S2 正态分布
标准差S 正态分布 标准差越大,变异程度越大
变异系数 CV CV=S/X 适用于几个资料比较,均数相差太大或者单位不同 CV可大于1 也可小于1
第三章 正态分布与医学参考值范围
正态分布
医学参考值范围
指正常人的解剖生理生化指标等数据大多数个体的波动范围
确切含义:从选择的参照总体中获得的所有个体观察值 用统计学建立百分位数界限,由此得到个体观察值的波动区间 通畅百分之九十五
注意事项:1.同质 2.足够例数的参照样本 3.控制检测误差 4.选择单双侧界值 4.选择适当的百分数范围95% 6.选择计算参考值范围都方法①正态分布发②百分位数法
第四章 定性数据的统计描述
常用相对数
相对数:两个有关联的绝对数之比,或者两个有关联的统计指标之比
率=样本/总体 在一定空间或时间内某现象的发生数与可能发生都总数之比,常百分率 千分率
构成比=样本中A/样本总数 表示某事物内部各组成部分在整体中所占比重,常以百分数表示
相对比=样本1/样本2 是1和2两个有关联指标之比 常用倍数表示
相对危险度RR 在两种不同条件下某疾病发生的概率之比 反映暴露组发病或死亡是非暴露组都多少倍
比数比OR 又称优势比 表示病例组和对照组的暴露比例与给暴露比例的比值之比
标准化率(为了消除内部影响)
医学中的常用相对数指标
死亡统计指标
死亡率=某年某地死亡人口总数/同年该地年平均人口数
年龄别死亡率=某年某地某年龄组死亡人数/同年该地同年龄别平均人口数
死因别死亡率=某年某地某病死亡人数/同年该地平均人口数
死因构成=因某种死因死亡人数/总死亡人数
疾病统计指标
发病率=某时期某病新增病例数/同期内平均人口数 一般为一年,年发病率
患病率=某地某期间某病患病例数/该地同期内平均人口数 一般是慢性病都测量,新病例➕旧病例 是累加状态
病死率=某期间因某病死亡人数/同期该病毒患病人数
治愈率=治愈人数/接受治疗病人人数
羅患率 小范围 短时间内新发病率 一般用于爆发性疾病或者严重疾病
相对数指标使用的注意问题
1.构成比和率不用混淆 2.使用相对数分母不宜过小 3.正确计算合计率 (各率分子之和除以分母之和)4.注意资料可比性(同质)5.构成比和样本率存在抽样误差
第五章 统计表与统计图
统计表
统计表结构
标题 表上中间
标目 横标目位于表的左侧
线条 三线表
数字 表中不留空格 无数字用— 缺失用...
备注 用*⃣️(六个)标出 备注可有可无
统计图
统计图的结构
标题 下方 中央
图域
标目 分为纵标目和横标目 分别表示纵轴和横轴数字刻度的意义
图例
刻度
描述定量数据的统计图
直方图 线图 半对数线图 箱式图 误差条图 散点图
描述定性数据的统计图
直条图(条图) ——比较独立都多个组或者类别都统计量 构成图 (圆图 百分条图 )——描述或比较不同事物内部构成时
第六章 参数估计与假设检验
参数估计
抽样误差:由抽样造成的样本统计量与总体参数之间的差异 不可避免
标准误:反映均数抽样误差大小都指标 标准误越小,估计越精确
实际中,总体标准差σ未知 通常用样本标准差S估计 均数的标准误 为 Sx=S /√ n
率的标志误:一般情况下 总体率π未知,此时用样本率p估计总体率π,Sp=√p(1-p)/n
可信区间的概念
两种方式:1.点估计2.区间估计
区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体参数。事先给定的概率1-α称为可信度(通常取0.95或0.99),计算得到的区间,称为可信区间或者置信区间(其值越接近1越好)
总体均数估计的95%可信区间表示区间包括总体均数μ的概率为95%, 用区间的宽度来反映精密度,区间越窄说明估计越精确。
总体均数的区间估计
σ已知 正态分布
σ未知
t分布:单峰分布的一簇曲线,以0为中心对称分布,当t p v 其中之一为定值,另外两个成大小相反都关系 随着自由度v的增大 t分布曲线越来越近于标准正态分布曲线 当v无限趋近无穷,就是标准正态分布
假设检验
基本原理
假设检验或称显著性检验(一定针对总体),目的是定性比较总体参数之间有无差别或总体分布是否相同 基本思想:对所需比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设
基本步骤
1.建立假设和确定检验水准 无效假设H0 备择假设H1 2.选择检验方法和计算检验统计量 3.根据P值做出统计推断 P值含义——总体无差别时出现现有样本及极端情况的概率 P值越小 越有理由拒绝 H0,认为总体之间有差别的统计学证据越充分
假设检验中的两类错误
I类错误 用α表示 ——如真实情况与H0一致,仅仅由于抽样误差 使得检验统计量的值落到拒绝域,导致推断结论错误 1-α称为可信度
II类错误 用β表示——如果真实情况与H0不一致 检验统计量却落到了接受域
检验效能 1-β ——是指当不同总体确实有差别,按规定都检验水准α能发现其差别的概率 其值为1-β 在总体有差别时拒绝H0的概率
假设检验与区间估计的关系
可信区间在回答差别有无统计学意义的同时 还可以提示差别是否具有实际意义。 而假设检验仅可回答差值是否有统计学意义 无法判断是否有专业价值。
第七章 t检验
t检验
用于计量资料两总体均数比较
单样本t检验——适用于来自正态分布的某个样本均数X与已知总体均数μ0的比较 目的是检验样本均数所代表的总体均数是否与已知总体均数有差别
配对样本均数t检验/非独立两样本均数t检验——适用于配对设计计量资料都比较 目的是检验两相关样本均数所代表的未知总体是否有差别 只有一组,比较前后
两独立样本均数比较的t检验/成组t检验——适用于完全随机设计下两样本均数的比较 目的是检验两样本所来自的总体均数是否相等
方差不齐时的两样本均数的比较
两独立样本均数的比较,当两总体方差不等时,采用t’检验, 大样本情况下用z检验 也称u检验
方差齐性检验——由两样本方差推断两总体方差是否相同的检验方法 称F检验 F=S1方/S2方(较小) 一般取α=0.10水准判断
t’检验——三种方法 Satterthwaite法 Cochran法 和 Welch法近似t检验
z检验/u检验/t-test ——大样本情况下(n1, n2>50)
t检验中的注意事项
1.假设检验结论正确的前提 2.检验方法的选用及实用条件 3.单双侧检验的选择 4.假设检验的结论不能绝对化 5.正确理解P值含义——无效假设成立条件下,观察到都试验差别以及更极端的差别是由于机遇所致的概率
第八章 方差分析(F检验 )
完全随机设计的方差分析
将实验对象随机分配到不同处理组的单因素设计方法 每组只有一种处理——受试对象完全随机分配各组
组间变异=处理因素各组水平的差异➕随机误差 组内变异=各组样本内的波动 组间变异>组内变异
SS总=SS组间+SS组内 v总=v组间+v组内 MS组间或组内=SS组间或组内/v组间或组内 F=MS组间/MS组内 (方差分析的统计量 ) F>1 拒绝H0
随机区组设计的方差分析
随记区组设计/配伍组设计——先将受试对象按条件相同组成m个区组 每组有多种处理
SS总=SS处理+SS区组+SS误差 v总=v处理+v区组+v误差 MS公式一样 F处理=MS处理/MS误差 比较处理 F区组=MS区组/MS误差
多个样本均数的两两比较
究竟那些组不同,需要进一步对多个样本均数进行两两比较或者多重比较
Dunnett -t检验——实验前确定的多个试验组与一个对照组均数差别对比较 SNK-q检验——实验后对任意两两组间均数进行比较,各比较样本含量可不相等
方差齐性检验
多组数据的方差齐性检验
Bartlett 检验法——正态分布
Levene 检验法——偏态分布
其他设计类型的方差分析
析因设计——SS总=SSa+SSb+SSab+SS误差 重复测量设计
第九章 x2检验
用于分析分类变量数据的假设检验方法,目的是推断两个或多个总体率或构成比之间有无差别 原理——比较理论频数和实际频数的差异 基本思路——根据实际和理论频数的差异计算x2值
四格表资料的x2检验
四格表x2检验原理x2=Σ(A-T)2/T 四格表资料x2检验专用公式x2=(ad-bc)2/(a+b)(c+d)(a+c)(b+d) 四格表资料x2点校正公式—— 1.当n≥40且所有的T≥5时,用基本公式或者专用公式 2.当n≥40且1≤T≤5 用校正公式 3.当n<40或T<1时,用Fisher确切概率法
配对四格表资料的x2检验
常用于两种检验方法对一份样本定性检验
R×C列联表资料的x2检验
用于多个样本率或构成比的比较
注意事项:1.理论频数不应小于1 并且1≤T≤5点格子数不宜超过格子总数的1/5,若有,可通过①增加样本含量②根据专业知识,考虑删去或合并理论频数太小的行列③该用R×C表的Fisher确切概率法 2.只能说明各总体率有差别,不代表任意两个总体率之间有差别 3.用于无序资料,有序资料(痊愈 显效 有效 无效)用非参数秩和检验方法
第十章 非参数秩和检验
一种不依赖于总体分布类型,不涉及总体参数 对总体分布位置进行假设检验的方法
配对设计资料的符号秩和检验
Wilcoxon符合秩和检验 (配对资料数值之差)——属于配对资料的非参数检验 用于推断配对资料的差值是否来自中位数为0的总体
两独立样本比较的秩和检验
Wilcoxon秩和检验 ——其目的是比较两独立样本分别代表的总体分布位置无差异 若两组例数不同,则以例数较小者对应的秩和作为统计量 若T在界值内,则P值大于表上方的概率值
多个独立样本比较的秩和检验
Kruskal-Wallis 秩和检验 又称K-W 检验或者H检验
第十一章 线性回归与相关
线性回归
X自变量 Y应变量 用一个直线方程来描述两个变量间依存变化的数量关系,这样得出的直线方程叫线性回归方程 Y^=a+bx Y^是定X时Y的估计值(均值) a为截距 b为回归系数 b=Lxy/Lxx lxy 表示X与Y的离均差积和Lxx 表示X的离均差平方和,X Y上面➕横线分别为两个变量均值
原理——最小二乘法 各实测点到回归直线的纵向距离的平方和最小
线性回归的假设检验
方差分析——ss纵=ss回归+ss残差 F=MS回归/MS残差
t检验
线性相关
1.正相关 r<0>2.负相关r<03.无相关R=04.非线性相关
相关系数及计算 r=Lxy/√LxxLxy 因此r正负取决于Lxy 相关系数-1≤r≤1
相关系数的假设检验——t检验法 t=r-0(绝对值)/√1-r2/n-2 v=n-2
线性回归与相关应用的注意事项
线性回归的应用
线性相关的分析
回归与相关的联系与区别
主要对于定量资料
相关分析—— (需要双变量正态)描述两事物之间是否具有相关性,以及相关的方向,密切程度 回归分析——(只需Y正态)描述两事物相关数量变动都依存关系
满足参数检验条件,首选参数检验 否则可能 导致检验效能降低,则犯II类错误概率升高
总体分布已知——参数检验 未知或者非正态——非参数秩和检验 有序资料或半定量资料或数据两段无确定对值用非参数秩和检验
在四格表周边合计数不变情况下,实际频数变动共有=周边合计中最小数➕1
各比较组相应的总体方差相等
条件:独立 正态 方差齐
小样本——t检验 大样本,σ未知但n足够大(n>100)或σ已知——u检验
t检验以正态分布和方差齐性为基础 但是配对t检验不需要两组方差齐性假定 无论是否符合正态分布和方差齐性 都可以z检验
I类错误——该成立的不成立 弃真 II类错误——不该成立的成立了 存伪 样本量一定时,犯两类错误的概率可能是一大一小 但样本容量增大,可能二者减小
条图和直方图的纵坐标应从0开始
直条比大小 圆图百分比
直方看分布 线图看趋势/波动 半数说速度 箱式说变异/平均水平 散点看关系
若一种新的治疗方法不能治愈病人,但能延长寿命,则 该病的患病率增加
离散趋势: 相差悬殊(均数相差大或者单位不同)——变异系数 抽样误差——标准误
标准差是反应离散趋势最准确、最重要都指标
有“差”有“距”才有变异
用频数表计算均数 组中值应为——(本组下限值➕下组下限值)
两个重要特征:离散趋势 集中趋势
按照随机方法抽取的样本特点——只能减少样本偏性
要想有代表性,就得①随机抽取②样本量足够大
而统计工作的四个步骤是:统计设计 搜集资料 整理资料 分析资料 关键步骤——调查和实验设计