导图社区 医学统计学 第五版
医学统计学 第五版,整本书逻辑、易错点整理,适用于期末复习或预习,后面几章没来得及整理完
编辑于2023-03-04 22:28:30 广东医学统计学
资料整理与分析
定量资料
数值变量资料的统计描述
频数分布表和图
表
图 频数为纵坐标
表和图的用途
描述频数分布的类型:对称分布/偏态分布
描述频数分布的特征:集中趋势/离散趋势、离散程度、变异程度
便于发现可疑值
便于进一步做统计分析和处理
统计指标
描述集中位置
平均数指标
算术均数X拔
几何均数G
中位数M及百分位数Px
描述离散程度
常用指标
极差R
四分位数间距Q
方差S2/标准差S
方差:离均差平方和除以变量个数,考虑到了每个观察值的离散情况,S2越大说明观察值的离散程度越大(实际工作中的n-1校正)
标准差:方差开平方根,全面反映离散程度,在俩组同质观察值比较离散程度时,若两组均数相近,则标准差大的一组观察值离散程度大,说明该组观察值围绕均数分布较离散,其均数代表性差
应用;表示观察值的离散程度/结合均数描述正态分布的特征/用于计算变异系数和标准误
变异系数CV/离散系数
标准差与均数之比=S/X拔
应用:度量衡单位不同的几组资料间的比较 身高体重离散程度那个大?/均数相差悬殊的几组资料间的比较不同年龄组儿童身高的离散程度
正态分布及其应用
正态分布的主要特征
俩个参数:均数、标准差;均数恒定,标准差越大,数据越分散,曲线越胖,z转化
正态曲线下面积分布规律
查表得曲线下某一区间的面积
Z值表:横坐标纵坐标为Z值,方框里数据为面积/概率
表中只列出曲线左侧负无穷到Z之间面积的数值
当均数和标准差知道时将数据带入转化公式求Z=X-u/sita,再查Z值表
3sigema法则:1、1.96、2.58~68.27,95,99
正态分布的应用
估计频数分布:利用分布规律对某事件的频数分布作出概括估计
医学参考值范围的确定
医学正常值范围:正常人群解剖、生理生化指标的波动范围
参考值范围有单双侧之分(根据专业知识确定)
医学参考值的估计方法:(服从正态分布)正态分布法,(不服从)百分位数法
实验室质量控制
正态分布是很多统计方法的理论基础(卡方,t,F分布均以此推倒得出)
总体均数的估计及假设检验
统计推断:由样本信息去推断总体信息
参数估计:对总体参数进行推断所用的方法
点估计
区间估计
假设检验:由两个或多个样本的信息对他们的总体参数是否有差别进行推断
均数抽样分布与抽样误差
均数的抽样分布:从统一总体中重复抽取样本量相同的样本,这些样本计算的样本均值(统计量)构成的分布
均数的抽样误差:由于总体中个体差异的存在,在抽样过程中产生的样本均数与总体均数之间的差异或样本均数之间的差异
标准误:样本均数的标准差
用途:标准误越小,样本均数与总体相差程度越小,估计总体均数越可靠
抽样误差不可避免
t分布
t分布的特征
1、t分布是一簇以t=0为中心左右对称的单峰分布曲线
2、t分布由自由度v决定形状,v月大,曲线越瘦高,当v无穷大时,t分布曲线与标准正态分布曲线完全吻合
t分布曲线下的面积规律
尾部面积:t值落在范围外的面积,并定义为概率a
则范围内为概率为1-a
横轴上的t值记为ta,v
t界值:将ta,v规定为正值,并称t界值
当ta,v确定了后可知t分布
总体均数的参数估计
点估计
区间估计
置信度:预先给定的概率 1-a
置信区间CI:以置信度确定包含总体参数的范围
假设检验的基本思想和步骤
假设检验的思想步骤:对推断目的进行假设---由样本信息进行推断---若理论与实际出现矛盾则拒绝假设,反之则不拒绝。
基本步骤:
1.建立检验假设,确定检验水准及单双侧检验
零假设/备择假设
检验水准a表示预先规定的拒绝域的概率值
2.选定检验方法和计算检验统计量
3.确定P值,作出推断结论
P值:若从H0所规定的总体中进行随机抽样,算得统计量目前值以及更加极端的、更不利于零假设的值的概率
拒绝/不拒绝H0 尚不能认为有差别----------接受H1
t检验
应用条件
独立性
正态性
方差齐性
F检验判断方差齐性,计算公式、方差齐性检验示范:p32
校正t检验/秩和检验/转换数据
分类
单样本资料t检验
样本均数与总体均数比较的t检验,其目的是推断该样本是否来自某已知总体,或该样本均数所代表的总体均数miu与已知的总体均数miu0是否相等
检验公式 p29
配对样本资料t检验
应用条件:差值d服从正态分布;检验目的:推断d的均值是否来自于miud=0的总体
检验公式 p30
实例:p30
两独立样本资料t检验
实例:p32
假设检验应注意的问题
一、要有严密的研究设计
所得样本应具有代表性,即样本的获取必须遵循随机化原则
二、正确理解检验水准a和P值的意义
P值
P值的意义:从H0所规定的总体中进行随机抽样,算得统计量目前值以及更加极端的、更不利于零假设的值的概率
P值告诉我们,在H0成立的假设条件下,得到实际观测的到的数据以及更不容易观测到的数据的可能性有多大
检验水准a
用于说明P值小到何种程度时,我们才拒绝H0,或者说,否定H0的证据要强到何种程度我们才拒绝H0。 a=0.05,表示当H0为真时,错误拒绝H0(犯一类错误的概率)的最大概率为5%
一个样本资料按某一检验方法只能得出一个P值,但用于界定此P值的a水准可有多个
把a水准的大小与结论的具体内容联系起来
采取更小的a水准
错误——当P值小于此水准时,指标间或数据分布间的差异也同步变大
正确——当P值小于此水准时,只能说明更有理由认为结论是正确的,即所作结论的误差更小,冒的风险更小
三、假设检验的结论不能绝对化
1类错误:拒绝真实的H0 a 1-a
假设H0是成立的,由于抽样误差的存在,偶然得到落在阴影a处的较大值,使得miu大于miu0,按a=0.05的水准,拒绝H0接受H1,结论为miu大于miu0,此时犯一类错误的最大可能概率值为a
2类错误:不拒绝不真实的H0 B
1-B:检验效能/把握度:指当两总体参数确实有差别时,按a水准能够发现这种差别的能力,即对实际上成立的H1作出肯定结论的把握程度。
影响检验效能的四个因素
1、容许误差:客观上两总体参数差异的大小
当容许误差越大时,假设检验能够发现两总体参数差异的机会越大,所以检验效能越大
2、总体标准差
总体标准差越小时,样本均数的标准差(标准误)越小,检验效能越大
3、1类错误检验水准
a越大,犯2类错误的概率越小,检验效能越大
4、样本含量
样本含量增大时,样本均数的标准误减小,从而引起检验统计量增大,P值降低,检验效能增大
a取小:减少犯一类错误的风险
a取大:减少2类错误的风险
增加样本含量——同时减少俩类错误的风险
四、正确理解结论的统计学意义
对同一资料按相同的方法分别进行单双侧检验,则双侧检验所得P值一般大于单侧检验所的P值
单侧检验效能高于双侧检验
五、正确应用单双侧检验
六、假设检验与区间估计的区别
置信区间用于推测总体参数是否不同
假设检验用于推断总体参数是否不同
方差分析
基本思想:在于变异的分解
本章用方差衡量变异的大小
将全部个体观察值间存在的变异(总变异)按设计和需要分解成俩个或多个组成成分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义
变异
总变异——总方差·MS总,总自由度v总=n总-1
组间变异——组间均方·MS组间,组间自由度v组间=k-1(k为组数)
包含俩种情况:本质有差别、随机误差
组内变异——组内均方·MS组内,组内自由度v组内=n总-k
组内变异在数值上表现为各组的个体值围绕各自的组均数上下波动
假设:零假设:H0:miu1=miu2=...=miuk,即各组的总体均数相等,备择假设为各组总体均数不全相等
统计量:F=MS组间/MS组内~ F(v组间,v组内) F服从F分布
方差分析也可以应用于两总体均数的比较,其效果完全等价于t检验
F=t2
方差分析的前提条件及其判定
分类
完全随机设计资料的方差分析
完全随机设计方差分析常用于分析单因素两水平或多水平资料,属于单向方差分析
基本步骤
1.建立检验假设,确定检验水准及单双侧检验
2.选定检验方法和计算检验统计量 F表格
3.确定P值,作出推断结论 F界值表
至于哪些组的总体均数不同需要选用后面方法进一步作均数间的两两比较
随机区组设计资料的方差分析
多组总体均数的俩俩比较
定性资料
统计描述
定性变量的频率分布
多分类变量的频率分布
二分类变量的频率分布
常用相对数指标
构成比
构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数 %
表示某一事物内部各组成部分的比重或分布 患病人数构成比
率
又称频率指标,说明某现象发生的频率
率=某时期内发生某现象的观察单位数/同期可以发生该现象的观察单位总数*比例基数
患病率
相对比
是指两个有关联的指标值之比,说明两者之间的对比关系
相对比=A/B*100%
男女性别比
应用相对数指标应该注意的问题
计算相对数时应有足够的样本含量
不要把构成比和率相混淆
注意资料的可比性
要考虑存在抽样误差
常用动态数列指标及其应用
动态数列:按时间顺序排列起来的一系列统计指标,用以说明事物在时间上的变化和发展趋势
绝对增长量 绝对数量
累计增长量
逐年增长量
发展速度/增长速度 两者均为相对比
定基比发展速度
环比发展速度
定基比增长速度
定基比发展速度-100%
环比增长速度
同上
平均发展速度和平均增长速度
用于概括事物某一时期中的平均变化
七年平均发展速度
根号n次方下an/a0
可用于预测几年后预期达到指标
粗率的的标准化法
标准化法的意义和基本思想
标准化率的计算
计算公式
直接标准化法
标准构成的选取
计算步骤
卡方检验
分类
两个独立样本的四格表资料的卡方检验
卡方检验
校正卡方检验
fisher确切概率法
多个独立样本列联表资料的卡方检验
R*C表资料的卡方检验
样本率的比较
构成比比较
关联性比较
双向无序分类的关联性检验
rp 列联系数 目的是使相关性测量可以应用于多维列联表资料
列联表资料卡方检验的注意事项
列联表中理论频数不应小于1,或1<=T<5的格子数不宜超过格子总数的1/5
处理方式
增加样本含量、理论频数
根据专业知识删去理论频数较小的列
改用双向无序R*C表的fisher确切概率法
具体推断多个样本率或多个构成比之间是否有差别
Bonferroni法
卡方分割法
配对资料设计的卡方检验
B+C>=40 MNTEST
B+C<40 校正公式
fai系数通常用于四格表资料相关性的测量
频数分布拟合优度的卡方检验
频数分布的拟合优度
频数分布拟合优度卡方检验的步骤
秩和检验
非参数秩和检验的概念及其应用
分类
配对资料的符号秩和检验
Wilcoxon符号秩和检验
完全随机设计俩组独立样本比较的秩和检验
完全随机设计多组独立样本比较的秩和检验
随机区组设计资料的秩和检验
线性相关及回归
线性相关
等级相关
线性回归
俩者区别与联系
研究设计
统计图与表
统计表
基本结构5:标题、标目、线条、数字、备注
三文字一数字一线条
制作原则和编制要求
原则:重点突出,简单明了;主次分明,层次清楚
具体要求:标目-横在左相当主语,纵在右相当谓语;三线:顶线、纵标目下面的横线、底线
标题表上;数字:用小数表示,暂缺/未记录用...,无数字用-
种类(按分组标志的多少)
简单表
组合表
统计图
绘图基本要求
标题位于图的下方,图例放在右上角空隙或下方中间位置
条图、散点图、线图、直方图都要有横纵坐标,且长度比例为5:7适宜。条图和直方图纵轴要从0开始
常见统计图-文件wps
统计图表应用实例
统计设计类型
观察性研究
横断面研究
病理对照
队列研究
实验性研究
动物实验
临床试验
社区干预
调查设计
子主题
调查研究的特点
不能对调查对象人为施加干预措施
不能将调查对象随机分组
很难控制干扰因素
只能被动地观察客观存在的现象
调查研究的类型
按研究范围分类
普查
典型调查
新冠肺炎的个别典型患者,研究其肺部病理损害
抽样调查最常用
欲了解深圳市小学学生近视情况
按抽取样本的方式分类
概率抽样调查
单纯随机抽样
系统抽样
分层抽样
整群抽样
非概率抽样调查
按调查时间分类
横断面研究
病理对照
队列研究
调查研究设计的主要内容
确定调查目的和指标
确定调查对象,观察单位和调查范围
确定调查项目与设计调查表
调查项目
分析项目
备查项目
调查项目的答案
开放式回答
封闭式回答
无序定型回答
有序定性回答
有序定量回答
调查表设计
引导语
对答案设置代码
同时编制填表说明
调查项目中的排列顺序
封闭式在前、开放式在后
先易后难,符合逻辑
确定抽样方法及其样本量估计
确定资料收集方式
计划调查的组织与实施
常用的实验设计方法及样本量估算
单因素设计
完全随机设计
配对设计
随机区组设计
交叉设计
多因素设计
禊因设计
重复测量设计
调查研究的质量控制
实验设计
实验设计的主要内容和基本原则
常用的实验设计方法及样本量估算
完全随机设计
将同质的受试对象随机分配到各个处理组,再观察各组之间实验效应差异的设计方法
配对设计
自身配对:同一受试对象处理(实验或治疗)前后的比较或同一受试对象接受两种不同的处理,如同一标本用两种方法检验的结果
异体配对:将条件相同或相近的受试对象配成对,然后分别给予不同的处理。其目的是推断某种处理因素有无作用或两种处理有无差别
统计资料的类型/变量类型
分类
定量变量/数值变量
离散型变量
只能取整值 如:1月住院患者数
连续型变量
可取实数轴上的任意值 如:血压、身高、体重
定性变量/分类变量
无序分类变量/名义变量
二分类变量/多分类变量 如:房颤类型、职业
有序分类变量/等级变量/半定量变量
如:治疗效果 - + ++ +++
变量的转换
只能从定量变量️-有序分类变量-无序分类变量
绪论
概念
同质与变异
对观察指标产生影响的因素相同
同质基础上的个体差异
总体与样本
概率与频率
概率:随机事件发生可能性大小
频率:某现象在样本中出现的比率
小概率事件:p小于等于0.05/0.01
参数与统计量
参数:描述总体特征的指标
统计量:由样本计算出来的反应样本特征的量
抽样误差
三资料一统计
医学统计工作的步骤
统计设计
资料的收集整理分析全过程的设想和安排
收集资料
收集准确可靠的数据
整理资料
纠错、净化、逻辑性检验
资料分析
统计学的核心部分
主要目的:表达数据特征并阐明事物内在规律
包括
统计描述
运用统计指标、统计图、统计表对资料的特征和分布规律进行描述
统计推断
利用样本信息推断总体特征并作出相应估计或决策的过程