导图社区 卫生统计学 赵耐青版-中
这是一篇关于卫生统计学 赵耐青版-中的思维导图,主要内容有第七章两独立样本定量资料的统计分析、第八章多组独立定量资料的统计分析、第九章配伍区组设计资料的统计分析、第十章直线回归和相关等。
编辑于2022-12-25 22:08:35 四川省出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。 风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
《别人不说,你一定要懂的人情世故(精华读本)》的特点在于通俗易懂,实用有效,没有空洞地讲大道理,一切都从实际的生活出发。通过对生动有趣的生活事例的讲述,对人性与心理进行了详细深刻的分析,从而阐述了实用有效的人情世故哲学。人情世故并不是洪水猛兽,而是有助于我们建立和谐人际关系和美好生活的一门实学。正如南怀瑾先生所说的:“人情世故不是简单的圆滑处世,不是假意的虚伪逢迎,不是单纯地屈服于现实,而是真正懂得生活的意义,安详地走完自己的人生。”
职场竞争激烈,一场成功的面试就像打仗一样,从面试前到面试中,再到面试后,都要做好关键动作,才能胜利! 本书以作者自身职场成功的经营和发展思维、方法、体系为基础,结合10余年互联网行业职场经验、近2年教练式咨询经历,首次吐露高薪人才赢得面试成功的技术和方法。 区别于市面上的其他图书,本书力求以极简的思维解析高薪Offer面试中的关键动作,将从心态、动机、准备、策略、战术、技巧、问答7个维度,以高薪Offer面试的视角,跟读者分享面试的实操心得与方法。
社区模板帮助中心,点此进入>>
出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。 风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
《别人不说,你一定要懂的人情世故(精华读本)》的特点在于通俗易懂,实用有效,没有空洞地讲大道理,一切都从实际的生活出发。通过对生动有趣的生活事例的讲述,对人性与心理进行了详细深刻的分析,从而阐述了实用有效的人情世故哲学。人情世故并不是洪水猛兽,而是有助于我们建立和谐人际关系和美好生活的一门实学。正如南怀瑾先生所说的:“人情世故不是简单的圆滑处世,不是假意的虚伪逢迎,不是单纯地屈服于现实,而是真正懂得生活的意义,安详地走完自己的人生。”
职场竞争激烈,一场成功的面试就像打仗一样,从面试前到面试中,再到面试后,都要做好关键动作,才能胜利! 本书以作者自身职场成功的经营和发展思维、方法、体系为基础,结合10余年互联网行业职场经验、近2年教练式咨询经历,首次吐露高薪人才赢得面试成功的技术和方法。 区别于市面上的其他图书,本书力求以极简的思维解析高薪Offer面试中的关键动作,将从心态、动机、准备、策略、战术、技巧、问答7个维度,以高薪Offer面试的视角,跟读者分享面试的实操心得与方法。
中心主题
第七章 两独立样本定量资料的统计分析
第一节 成组设计中的两独立样本举例
两独立样本来源
a. 完全随机分组得到两独立样本
研究金属铬对大鼠肝脏中锌含量的影响,针对同一受试对象(一组老鼠) 按照干预的不同(实验组饮水染毒,对照组正常饮水)分组, 试分析两组大鼠肝脏锌含量的区别
实验性研究
b. 从两总体中随机抽样得到两独立样本
研究接触某重金属对人体血胰岛素水平有无影响。 从两个总体随机抽样(该重金属暴露的职业人群和非暴露人群两个总体中抽样),分别测量其胰岛素水平后对比分析。
c. 按某种两分类属性分组得到两独立样本
从同一总体(某校大学生)中按两分类属性(性别)得到两组独立样本(男生女生) 分别测其血红蛋白含量分析差别。
观察性研究
第二节 两独立样本连续型定量资料比较的统计检验
I. 前言方法论
有哪些检验方法可选?
两独立样本连续型定量资料的假设检验可考虑t检验或秩和
2种检验优先级?
t检验检验效能更高,故优先考虑成组t检验进行两独立样本均数的比较
t检验的使用需要原始数据满足的条件?
独立性:观察值之间互不影响
独立的话即一个抽样值不受其他抽样值的影响。 一般而言有放回的抽样是独立的,不放回是不独立的。 不放回但其为无限总体时,该影响可忽略。(?)
资料独立性由抽样方式决定,故条件主要考查正态性和方差齐性
正态性:两样本分别来自正态总体或样本容量够大
样本容量够大的话,其样本均数都趋近于正态(中心极限定理 样本量较小时,对资料正态性要求较高;样本量较大时是否正态对检验结果影响不大。
当样本量大于30的时候,那么样本均值(取了1000次样本,得到1000个均值)的分布基本呈正态分布
方差齐性:两样本总体方差相等
方差不齐对检验结果影响较大。对不齐的资料可选用t'检验。 说白了t检验就是为检验两样本代表总体有无差异,那么就很需要power of test这一能力;检验功效也受到个体变异的影响,个体变异可用方差指标表示,故可致个体变异大时power降低,对结果影响大。
相比于正态性要求,方差不齐对检验结果影响更大
样本量与方差齐性无关,故即便大样本忽略正态性要求,方差齐性的要求也不能忽略
若资料不满足正态或方差齐性或总体分布未知,可用Wilcoxon秩和检验
II. 正态性检验
其检验假设
H0:资料服从正态分布
H1:资料不服从正态分布
检验水准
α=0.05
具体方法
一般可选用Shapiro-Wilk正态性检验或峰度联合检验等
III. 方差齐性检验
为什么需要做方差齐性检验?
其实就是检验的算法存在差异。齐是一种(自由度)算法,不齐是另外一种。 齐的话两组资料可比性更大,齐的话更多只需比较两组样本均数。 不齐的话需要考虑更多以判断二者是否同总体。
检验方法
F检验
F检验统计量
F=S1²/S2²,ν1=n1-1,ν2=n2-1
基本思想
若两总体方差相等(H0),则F值不应偏离1太远,否则拒绝H0
可证明F统计量服从ν1=n1-1,ν2=n2-1的F分布
故如果检验中出现较大的F值且其大于相应F界值,则有理由认为两样本方差差异不仅是抽样误差引起的,可认为两总体方差不等
基本步骤
检验假设+α
计算统计量F
确定P值范围得出结论
IV. 两独立样本t检验
统计量计算
基本步骤
检验假设+α
H0:μ1=μ2,两总体均数相等
计算t统计量
确定P值范围得出结论
V. t'检验
适用情况
两独立样本总体方差不齐,但服从正态分布/或者样本量较大
t'统计量计算
VI. Wilcoxon秩和检验
Wilcoxon秩和检验不直接比较两总体均数,而是比二者分布是否相同。 能用参数检验尽可能就用参数检验,因为以秩次作为统计量会损失很多信息,
适用条件(4中1即可)
1. 资料不满足方差齐性或正态分布条件
2. 资料分布未知
3. 数据一端或两端为不确定数据
4. 等级资料
基本思想
两组原始数据混合后从小到大编秩,分别计算两组秩和T1和T2
另设两组样本量分别为n1&n2,N=n1+n2,则T1+T2=N(N+1)/2
后面就是等差数列求和
拆分:T1+T2=N(N+1)/2,得两组秩和理论值分别为n1(N+1)/2和n2(N+1)/2
故当H0成立时
推断逻辑
H0成立时
两组实际秩和应与理论秩和相差不大
小样本时,通常定义样本含量较小的一组(n1)为第一组,秩和T服从总体均数为n1(N+1)/2得对称分布
样本量较大时,秩和T近似服从总体均数为n1(N+1)/2,方差为n1n2(N+1)/12的正态分布
H0不成立时
多数情况下检验统计量T将远离其理论值,从而借助Wilcoxon秩和检验界值表或者近似正态分布的检验统计量以完成假设检验
基本步骤
检验假设是两独立样本对应总体的分布相同与否
编秩求和,确定统计量T
两组原始数据混合后由小到大排序编秩,遇相同数据则取平均秩次
如3、4秩次数据相同,取平均秩次3.5,则下一秩次应从5开始
选哪个秩和作为统计量
两组样本量相等:任取一组秩和作为T
两组样本量不等:取样本量较小组秩和作为T
确定P值范围,得出结论
n1≤10且n2-n1≤10时:查表法
默认n1为样本量较小的那一个
查两样本比较秩和检验的T界值表,统计量T等于T界值或在其之外,则拒绝H0
n1>10或n2-n1>10时:正态近似法
此时超出T界值表范围,由于样本量相对较大,可将统计量T近似为服从总体均数为n1(N+1)/2, 方差为n1n2(N+1)/12的正态分布
还需对秩和T做连续性矫正已将秩从离散型数据转为连续型
正态分布统计量Z
分子部分减0.5为连续性校正
若存在较多相同观察值同秩,需进行Z值校正
0<c<1
对比Z界值得到P值范围
第三节 两独立样本Poisson分布资料的近似正态分布的均数Z检验
泊松分布常用于描述单位时间(面积空间容积)内某事件发生数X的概率分布。X~P(μ) 如单位时间内放射物质放射次数,单位水容积中细菌数等等。 通常当μ≥20时,泊松分布近似正态,可用正态近似的Z检验。
两样本观察单位数相同时
思路步骤
首先X1和X2均>30时(以保证均数μ≥20),X1~N(μ1,μ1),X2~N(μ2,μ2)
两样本观察值之差X1-X2近似服从正态N(μ1-μ2, μ1+μ2)
特别当μ1=μ2时,两样本观察值X1-X2近似服从N(0,μ1+μ2)
由于μ1、μ2通常未知,常用X1+X2估计方差μ1+μ2,故统计量Z为
H0成立时Z近似服从N(0,1),比较Z统计量与Z界值大小得到P范围得出结论
中枢函数是Z分布,参照Z值的计算,故如果H0成立,Z值不应该偏离0太多。
两样本观察单位数不同时
思路
应先将两组观察单位化为相同才能比较
记第一二个样本观察单位与基本观察单位的比例分别为n1和n2
计算基本观察单位内两组事件的平均发生次数X1bar和X2bar
对应总体平均水平μ1和μ2
X1bar=X1/n1
X2bar=X2/n2
当X1、X2分别大于30时,两样本平均发生数之差
统计量Z计算
例题?
直接带公式完事儿
为什么讲究观察单位数是否相同?
两独立样本Poisson分布资料存在两个要素
观察单位数n
单位unit内某事件发生概率π
二者相乘得到样本观察值X:观察单位内某事件发生次数
检验假设直接针对X的总体μ
要对比μ就对比X,对比X而言,因n可变而π恒定故本质是对比π
所以存在观察单位不同时求的:Xbar=X1/n,这里的n是观察单位调整的比例,不是单位数本身
第四节 基本概念辨析
I. 总体均数,样本均数与差异有统计学意义
总体均数为常数,普查以确认,其余通常未知
样本均数由抽样得到
差异有统计学意义针对的是两总体均数是否相等,并非推断两样本均数
样本均数已通过样本确定,等或不等,无需统计检验
统计检验的假设和结论均针对总体均数
注意
总体均数说是否相等/有差异
样本均数说差异是否有统计学意义
II. 两样本均数的差异有统计学意义与两总体均数不等
两样本差异有统计学意义≠实际的两总体均数不等
正确表述为:两样本均数差异有统计学意义,在α检验水准下可推断两总体均数不等
即二者之间的过度需要一个严谨的概率说辞,A成立,那么有90%概率认为A可以→B,B成立
III. 差异有统计学意义与差异有实际意义
差异有统计学意义≠差异有实际意义
例如比较两种降压药时,至少要使血压降低平均10 mmHg以上才认为具有临床治疗意 义,但如果采用大样本观察,即使两种药物使血压降低平均相差2 mmHg,也可能得到较小的P 值(差异有统计学意义)
差异有实际意义≠差异有统计学意义
如何保证研究结果更具使用价值?
在设计和实施阶段考虑周密
样本代表性
随机分组确保组间均衡
足够样本量
良好质量控制
...
IV. 当两样本t检验统计量|t|>t0.05/2,ν时,两样本均数大小与两总体均数的大小
推导过程
结论
当|t|>对应界值或|Z|>1.96时
即P<α,可拒绝H0
X1bar>X2bar可得μ1>μ2
V. Poisson观察值与资料近似正态分布
当Poisson观察值≥30时,其μ的95%CI下限>20
当Poisson的μ≥20时,其正态近似已非常好了,所以一般可以要求Poisson观察值≥30,此时直接使用正态近似发作统计推断
即Poisson观察值≥30等价于μ≥20可正态近似
VI. Poisson分布资料在作观察单位换算后的分布
观察单位换算后由于μ≠σ²不能再用Poisson分布进行统计分析,一般采用正态近似法
服从正态分布的变量在通过乘除变换后仍然服从正态
故在进行Poisson分布观察单位变换时,不要求Xbar>30,而要求原始观察值X>30。即可认为X和Xbar都近似服从正态
VII. 正态性检验与方差齐性检验的α水平设定
正态性对t检验的结果影响较小(具有稳健性),故正态性检验的α一般取0.05
而方差齐与否对t检验的结果影响较大,故应增大发现其不齐的能力,故应减少第二类错误概率β(尽量不存伪H0),只能通过增大I类错误概率α来降低β,故方差齐性检验α通常取0.10及以上
第八章 多组独立定量资料的统计分析
前言
是否可用成组t和两样本秩和进行多次两两比较?
多次两两比较意味着多次假设检验,此时不犯错及至少犯一次I类错误的概率远大于α。故多次比较会大大增大I类错误概率。
正解应考虑方差分析或多组资料的秩和检验Kruskal-Wallis检验
前者power高于后者
前者适用条件
1. 资料间相互独立
2. 方差齐性
3. 每组资料服从正态/大样本量
后者适用条件
仅要求各组资料相互独立
第一节 多组独立定量资料的方差分析
方差分析是分析处理因素方差是否与概率期望方差相等的一种方法。 由英国统计学家R.A.Fisher于二十世纪二十年代首创,为纪念Fisher,又将方差分析称为F检验。
I. 方差分析的实例数据
反应变量 dependent variable,Y
是测量指标组成的定量data。
自变量 independent variable,X
此处的组别:factor/treatment
组别下的每一个分组称为一个level(水平)
看作代表不同处理效应总体的四个独立样本。目的是推断各处理效应的总体均数是否不同。
II. 方差分析的基本思想
一句话概括:
其基本思想是变异分解,通过比较各种成分的变异程度的大小,来确定各个样本对应的总体均数是否不同。
大致思路:
1. 首先将全部观察值之间的总变异按设计需要分解成多个组成部分
2. 再计算factor/treatment之间的组间变异和组间均方&组内变异和组内均方
其中组内均方即是误差均方?
3. F=组间均方/组内均方
4. 随后对应相应F分布,≥F值的曲线下面积即为F检验的P值,与α比较判断是否拒绝H0
检验假设该怎么做?
H0:所有总体均数都相等
H1:所有总体均数不全相等
即只要有任意两个总体均数间不等,H1成立
缺陷在于仅能反映各样本代表总体之间有无差异,不能反映有差异情况下的变化趋势或剂量反应关系
具体
变异的分解
总变异可分解为组间变异和组内变异
总变异 total variation
是指所有N个个体观测值与其平均数之间的差异。用离均差平方和SS表示变异 SS:sum squares of deviations from mean, SS
总离均差平方和(SS总)计算公式
其实就是没有除以自由度的方差
自由度ν总=N-1
组间变异 among groups variation
反映了处理因素不同水平之间的差异,同时也包括了随机误差。(随机误差包括个体差异和测量误差),大小用各组样本均数与总均数的离均差平方和表示
同时反映处理因素间差异与随机误差的大小
SS组间 计算公式
组间自由度ν组间=g-1
g为组数
若H0正确,即每个处理组对应的总体均数相同时,彼此之间差异较小且仅属于抽样误差,此时组间变异(SS组间)较小
若H1正确,各处理组相应的总体均数不全相同时,各组样本均数与总体均数之差会较大,不仅含有抽样误差,还有研究因素效应,组间变异(SS组间)会较大
组内变异/误差变异 within groups variation
每组内部的个体观测值通常互不相同且与其相应样本均数有差异,这种变异称为组内变异。 组内变异仅仅反映随机误差(包括个体差异和测量误差)的大小,故又称为误差变异(残差平方和)。
组内变异仅反映随机误差(含个体差异和测量误差)的大小,故又称误差变异(或残差平方和
SS组内 计算公式
组内自由度ν组内=各组样本标准差自由度之和∑(ni-1)=N-g
各组样本标准差自由度,即计算标准差的分子自由度,为n-1
上述三者之间的关系
SS总=SS组间+SS组内
ν总=ν组间+ν组内
变异的比较
为什么不能直接用离均差平方和SS
SS计算的组间和组内变异受自由度(也就是样本量)的影响,n越大SS越大。 为消除自由度影响,需除以它。得到平均变异指标:均方 mean square
计算公式
MS=SS/ν
MS组内正好是成组t检验中的合并方差,故可理解为组内均方为各样本的合并方差
F=MS组间/MS组内
根据SS组间和SS组内所反映的东西,可知比值F所反映的是组间处理水平的差异。 故H0时F理论上接近于1。
当H0为真时,认为各处理组样本源于同一总体,处理因素相当于不起作用,即组间变异和组内变异比较接近,故当样本量较大时,大多数情况F接近于1
H1为真时,MS组间较大,而MS组内变化不明显,故F检验值增大
F值要多大才有统计学意义?
当H0成立时统计量F服从分子分母自由度分别为g-1,N-g的F分布
因此可借助F分布界值得到相应的P值,根据α做出统计推断
III. 方差分析步骤
建立检验假设,确定检验水准
H0:每个总体均数均相等
H1:每个总体均数不等或不全相等
α=0.05
计算检验统计量
单因素方差分析计算公式
确定P值,作出推断结论
确定P值的方式
统计软件输出精确P值
查附表得到P值范围值
IV. 方差分析的前提条件
进行方差分析的数据一般应满足如下几个基本条件: (1) 各处理样本是相互独立的随机样本; (2) 各处理样本相应的总体服从正态分布; (3) 各处理样本的总体方差相等,即方差齐性(homogeneity Of VananCe)
方差齐性检验
多总体的方差齐性检验可用Bartlett或Levene检验
Bartlett检验要求资料正态分布,若明显偏峰则偏差较大
Levene检验不依赖于总体分布具体形式,故多推荐采用该法
Levene检验
适用
既可用于两总体方差齐性检验,也可用于多个总体方差齐性检验,所分析的资料可不具有正态性
基本步骤
转换变量,以离差值为基本单位
将原始观测值Yij转换为相应离差值Zij, 然后将转换后得到的Zij当作测量数据
离差值Zij
假设检验,计算各数值
H0: 各总体方差全相等
α
F值计算公式
得出结论
残差 residual
即不加绝对值的离差值。
各处理组观察值与该组样本均数之差,如果不取绝对值,则称之为残差
以残差εij为纵轴,研究因素分组为横轴绘制出的散点图称为残差图
若残差的散点均匀分布在残差为0的横线上下,无特殊结构,则可认为满足方差齐性的条件
正态性检验
图示法
直方图
P-P图
Q-Q图
箱图
需要样本量较大,太小会难以根据图形判断分布
正态性检验方法
Shapiro-Wilk法或峰度和偏度的联合检验等
样本量较小时方差齐性前提下,可用检验残差方法
样本量较大时,无论是否源于正态总体,其样本均数抽样分布始终近似服从正态,只要原资料分布不是极度偏离正态,进行方差分析也可以
对于明显偏态且样本量小的数据,可通过数据变化使其满足要求
data transformation就是对原始数据作某种函数变换,它虽然改变了数据分布形式,但未改变数据间的关系,缺点是分析结果的解释不够直观 对于一些明显偏离正态性并且样本含量较小的数据,可以通过某种形式的数据变换使之满足方差分析、t检验或后面章节将要学到的简单线性相关、线性回归等统计方法对资料的要求
对数变换
(Iogarithmic transformation ):是将原始数据取自然对数或常用对数的一种变换方法
平方根变换
square root transformation,是将原始数据开算术平方根的一种变换方法。
该变换适用于服从Poisson分布的计数资料,如每单位面积的红细胞数资料
平方根反正弦变换
换(arcsine square root transformation ):该方法又称角度变换(angular transformation) ,是将原始数据开平方根再取反正弦的一种变换方法
该变换适用于构成比、百分比等比例数据
Box-Cox变换
这是一族正态性变换的方法,选择λ使变换后的资料达到相对最佳近似正态分布(Stata软件可以给出最佳近似正态分布的λ估计值)
V. 方差分析的多重比较
接受H1也只能认为多个总体均数不全相等,具体哪几个均数间存在差异还需要进行多个样本均数间的两两比较(也称为事后多重比较 Post hoc multiple comparisons) 采用修改后的t检验可避免 I类错误概率的累计。
LSD-t检验
least significant difference,LSD, 最小有意义差异t检验。
基于两独立样本t检验原理进行的检验
改良后公式
Bonferroni法
考虑了累积犯I的概率问题,原理为调整检验水准,控制发生第一类错误的概率
即犯I概率α减小,更不容易拒绝H0
适用于任何一种多组资料比较的统计检验方法
适用于所有的两两比较
为两两比较中最为保守的检验方法
当比较次数c不多时,该法效果较好
当比较次数c较多时(c>10),由于校正后检验水平α'过小,结论偏于保守
多重比较方法拓展
SNK-q检验
目的是进行多个总体均数两两之间的全面比较
在研究阶段未预料到,经数据结果提示后决定做两两比较,往往涉及到每两个均数的比较
称为探索性研究(也包括Bonfferoni法
Dunnett-t检验
适合多各处理组与对照的比较
目的是说明各实验组相对于对照组是否存在统计学差异,只需进行(k-1)次比较
设计阶段根据专业知识计划好的某些均数间的两两比较,一个对照与多个实验组等
与LSD-t等检验共称为验证性研究
第二节 多组独立定量资料的秩和检验
I. 适用条件
当需要多组比较的数据不同时满足独立、正态、方差齐性等基本条件而不能使用方差分析时
II. Kruskal-Wallis检验可看作是Wilcoxon秩和检验的拓广,用于检验多个样本所来自的总体分布是否相同。
III. 基本思想
编秩求和
混合数据从小到大编秩,有相同数据则取平均秩次
对每一处理组观测值秩次求和,并计算每一处理组平均秩次
检验假设
如果H0为真(g个总体分布相同),则认为各组资料来自同一总体,此时秩次应在g个处理组样本之间均匀分布,每个样本实际平均秩Ribar与所有资料平均秩Rbar=(N+1)/2的偏差应较小
若H1为真,则Ribar之间的差异可能较大,相应的Ribar-Rbar可能较大
K-W检验统计量H
可证明当H0为真且各组样本量较大时,可认为统计量H近似服从自由度为ν=g-1的χ²分布
一般公式
当存在较多相同秩次时,H可修正为Hc
当样本含量较小时,可查秩和检验H界值表进行判断
和方差分析一致需要另外采用多重比较方法进行两两比较
第三节 基础概念辨析
I. 单因素方差分析与多组独立定量资料的比较
单因素方差分析适用于: 完全随机实验设计的多组定量资料 现场调查研究所获得的多组定量资料
II. 单因素方差分析与成组设计的t检验的关系
单因素方差分析是成组设计t检验的扩展: 用方差分析分析两独立样本数据,所得检验值P相等,并且F=t² 但其不能完全代替成组设计t检验,因为方差只能检验两总体有无差异,但无法分辨孰大孰小。(方差中检验差异不检验大小,所以都是双侧检验)
III. 方差分析的双侧检验和单侧界值
方差分析的假设检验均为双侧检验,但其界值都是单侧的
如F>Fα,(ν1,ν2)时,拒绝H0
IV. 多重比较中的统计结果不具有递推性
例如在三组资料的多重比较中,不拒绝μ1=μ2,不拒绝μ1=μ3,在这之后不能递推判断认为μ2=μ3。 统计学中的等号等式都具有概率性,不能够按必然方式递推。
V. 不同的多重比较方法与结果的差异
LSD法
灵敏度较高但犯I类错误可能性较大
适用于探索性分析
Bonferroni法
分组数较大时可能矫枉过正
尽管减少了I类错误概率,但增大了犯II类错误概率,结论较保守
更适用于证实性研究
VI. 资料分析中的选择统计方法存在对错及优劣问题
对错:
方差严重不齐的多组资料若选用方差分析,则是错误的
优劣:
满足方差齐性的多组资料不选方差分析而选Kruskal-Wallis检验,不错但不是最优
第九章 配伍区组设计资料的统计分析
第一节 配伍区组的分组和举例
配伍区组设计属于两因素无重复试验设计.重复测量设计意味着同一观察对象各处理组之间的数据具有关联性,不独立。而配伍区组单个区组内容许不独立,但区组之间为独立的。 配伍区组设计包括配对设计和随机区组设计
配伍区组设计分两种情况
自身比较的配伍设计
同一对象接受不同处理之间的比较。 如同一病人服药前后的比较
随机区组设计
先将全部受试对象按一定条件或特征分成若干区组/配伍组,即每个区组内受试对象特征相近,再将每组受试对象随机分配到各处理组
需考虑2个因素
处理因素
一般分为多个水平
区组因素
如在动物实验中,常将窝别和性别相同、体重相近的动物进行配伍作为一个区组,在人群试验中,常将性别相同、年龄相近的受试对象进行配伍作为一个区组,则每个区组的k个受试对象具有较好的同质性,从而提高各处理组间的均衡性
影响试验效应的主要非处理因素
每个区组内的受试对象具有较好的同质性,从而提高各处理组间均衡性
随机区组设计能更好地控制非处理因素或混杂因素的影响,减少误差提高实验效率
第二节 配对设计资料的统计分析
简介
配对设计 paired design是配伍区组设计的最简单形式
配对设计2种情形
同一受试对象分别接受2种不同处理
两个同质受试对象分别接受两种不同处理
配对设计资料统计分析可选方法
配对t检验方法 paried t test
检验效能较高
样本量较小时要求配对的差值近似服从正态分布且不同对子之间互相独立
配对符号秩和检验 Wilcoxon matched-pair signed-ranks test
仅要求对子之间独立
参数检验方法——配对t检验
适用条件
1. 样本来自分布相同的总体,且研究变量的差值服从正态分布或近似正态分布
2. 不同对子之间的测量值相互独立
配对研究目的
比较相同配对条件下,两种处理的总体平均效应是否相同
基本原理
设n对观察结果(Xn1,Xn2),其对子的差值d
若总体平均效应相同,理论上μd=0
将位置总体均数μd的点估计:差值的样本均数d-bar与已知总体均数为0的差值进行统计学检验
检验统计量t公式
非参数检验方法——Wilcoxon符号秩和检验
基本思想
推断配对资料的差值是否来自中位数为0的总体
假设两种处理效应相同,则H0:差值总体的中位数Md=0,差值的总体分布应关于0对称
样本的正秩和与负秩和应该相近,任意选择正负秩和为T,T越接近n(n+1)/4,出现这种结果的概率就越大,反之T越远离其理论值,出现的概率越小
故在H0成立情况下,若T远离n(n+1)/4并且P<α,则可认为这是小概率事件,故拒绝H0
具体检验步骤
建立检验假设,确定检验水准
H0:Md=0,差值的总体中位数为0
H1:Md≠0
α=0.05
计算统计量T
编秩求和
先根据差值的绝对值由小到大编秩
按差值正负在秩次前加上正负号
若差值为0则舍去不计,同时总的对子数也相应减掉
若非零差值相等且符号相同,仍按原顺序编秩;符号相反则取平均秩次
符号相反同数据是反映了两总体的区别,不能直接按顺序编秩
符号相同同数据反映都在同总体内,取不取平均等价
分别求出正负秩次之和:T+和T-
负秩次要按绝对值计算
计算统计量T
T+和T-以较小者作为统计量T,即T=min(T+,T-)
确定P值或P值范围,做出推论
查表法
5≤n≤50
正态近似法
n>50
当不存在相同秩次时
当存在相同秩次时(不包括差值为0者)
第三节 随机区组设计资料的统计分析
参数检验方法——两因素方差分析 two-way ANOVA
适用条件
独立性
各区组之间观察资料是相互独立的随机样本
正态性
残差服从正态
方差齐性
各处理组残差总体方差相等
总变异的构成与关系
SS总=SS处理+SS区组+SS误差
ν总=ν处理+ν区组+ν误差
各变异计算
具体分析步骤
建立检验假设和α
针对处理组
H0:n种不同处理带来的效应的平均值相同
三个不同饲料喂养的小白鼠体重平均增加量相同
α=0.05
针对区组
H0:对于任何一种处理因素,各个区组内的对象效应值相同
对于任何一种饲料喂养,10个区组的小白鼠平均体重增加量相同
α=0.05
计算统计量F值
确定P值范围做出推论
根据F处理和F区组确定各自的F界值
推论针对处理效应和区组分别作答
若推论为拒绝H0,一般需要进一步了解哪两种处理之间的效应不同,则需作多重比较,可选用LSD检验,检验统计量为t,故又称为LSD-t检验
进一步多重比较的LSD法
基本公式
基本步骤
建立检验假设和α
H0:所比较的两种处理因素带来的效应值相等
计算统计量
将不同处理的效应值从大到小排序,并编上组次
计算两均数标准误
得到各对比组间的t值
确定概率,作出推论
若对比组间差异有显著意义,则其大小为实际均数间大小
非参数检验方法——Friedman test/M test
当随机区组设计资料不满足方差分析条件时,对多个样本均数的比较可采用Friedman非参数检验,又称M检验
基本思想
如何编秩?
首先编秩前提是确定编秩范围
成组设计中编秩前将所有数据混合在一起,故编秩范围为整个混合数据
而用于随机区组设计的Friedman test则应在每个区组内进行编秩
为什么Friedman检验是对处理效应进行的检验?
由于随机区组设计的随机化在区组内而非区组间,故Friedman检验的编秩在每个区组内进行
可发现不同区组的秩和相等
区组间的变异被忽略
算出各处理组秩和之后如何分析?
得到各处理组秩和Ri之后,我们要分析这几个处理组效应是否都对应同一个处理效应总体
故先得到H0成立前提下所估计的各处理组对应总体处理效应的秩和Rbar
计算各Ri与Rbar的差值,之后求差值和,如果H0成立,差值和统计量M的值不应太大
检验步骤
建立检验假设,确定α
H0:各总体分布相同
计算统计量M值
编秩
计算M值
确定概率,做出推论
k和b未超范围:查表法
kb超M界值表范围,可采用近似χ²分布法
出现平均秩次时的校正公式
推论为拒绝H0时,若需进一步了解哪两个处理组间有差异,则需进行组间多重比较,可选用Bonferroni法
第四节 基本概念辨析
配伍区组设计与完全随机设计
考虑因素不同
完全随机设计:单因素设计
仅考虑处理因素
配伍区组设计:双因素设计
考虑处理因素与区组因素
通过区组来控制可能的非处理因素或混杂因素
在方差分析时将区组变异从总变异中分解出来,当区组效应确实存在时,由于从误差项分离了区组变异,使其减少了非处理因素或混杂因素带来的偏倚变异,减少了误差而提高了检验效率
分组方式不同
完全随机设计
将受试对象完全随机地分配到各处理组中
理论上完全随机分组可使各组趋于均衡,但在样本含量较小时,各组间常出现不均衡现象
随机区组设计
先将控制因素条件相同或相似的受试对象安排在同区组
再将其随机分配到各处理组
同区组的受试对象数与处理组数相等
各处理组间均衡性好
配伍区组设计资料与重复测量资料
为不同的两种类型资料
重复测量资料?
指对同一观察对象同一观察指标进行多次测量获得的资料,各处理组间数据有关联性,并不独立
单个组别的重复测量资料的重复测量方差分析与配伍区组设计的方差分析一致
配伍区组设计方差分析虽要求区组之间观察资料相互独立,但在同一区组的不同处理之间容许不独立,这一点与重复测量资料性质一致。 都没有要求组内数据独立,因为本来就存在相关性
配伍区组设计方差分析的正态分布及方差齐性要求
不要求每种处理对象观察值服从正态分布和方差齐性
因为其观测指标的总体均数还受到区组效应影响
但要求残差服从正态分布且各处理组满足方差齐性
残差是在观察值基础上消除了处理效应和区组效应后得到的随机变异成分
配伍区组设计资料与完全随机设计的资料差异
配伍区组设计的资料一般不是独立的,故其资料不能用完全随机设计的方差分析进行统计检验
即使区组效应统计检验P>0.05(区组效应不存在),也不能推断同一区组不同处理对象的观测值相互独立
第十章 直线回归和相关
回归regression 相关correlation 回归和相关分析即是研究多个变量间相互关系的统计方法。 regression研究变量间数量依存关系。 correlation研究变量间是否存在线性伴随联系、线性伴随方向及联系程度。
第一节 直线回归分析 linear regression analysis
又称简单线性回归分析 simple linear regression analysis
I. 概述?
直线回归分析概念
也称简单线性回归分析,是研究两个变量间的数量依存关系的统计方法
直线相关分析概念
直线相关分析也称线性或简单相关分析,是研究两个随机变量之间是否有线性伴随联系、线性伴随方向及联系程度的统计方法。
自然现象中的2种数量关系
complete relation/确定性依存关系
描述确定性现象间的函数关系。例如正方形面积和边长的关系
对于这种函数关系,自变量每一个取值都有对应且确定的函数值
incomplete relation/不确定性依存关系/回归关系
例如血清胆固醇值X对应其研究人群的舒张压Y的均值μY|X,这个μY|X与X呈直线关系。 即由于个体变异,同一X对应不同个体有不同的Y值,Y值在其对应的总体均数μY|X附近上下波动。
该关系中每一个固定变量X都对应一个μY|X值
μY|X为因变量Y的总体均数,由X算得的Y在μY|X附近上下波动
先通过散点图判断其是否存在直线回归关系
直线带状分布
非直线带状分布
比如抛物线关系,同样由于个体变异,对于固定的X,因变量观察值y应该在其总体均数附近,样本资料所作的散点图上应呈现抛物线条带分布,并且总体均数μY|X,与X的抛物线应在这条抛物线条带散点中穿过。
直线回归分析的主要任务
研究固定自变量X情况下的因变量Y的总体均数μY|X与X之间的线性回归关系
直线回归分析基本思想
1. 确认要研究的X和Y可用普查和抽样调查
2. 普查X和Y
从经济角度考虑一般没有必要普查
总体回归方程
μY|X=a+βX
ε=Y-μY|X
用ε表示个体变异带来的随机误差:
Y=a+βx+ε
3. 抽查X和Y
样本资料拟合曲线,得到的是α和β的估计值a&b
样本的回归方程
Y^= a+bX
对应μY|X=a+βX
Y^为Y的预测值,μY|X的估计值
II. 线性回归基本概念及前提假设
直线回归、直线回归方程及直线回归模型
直线回归方程
μY|X=a+βX
Y:因变量或应变量
X:自变量
α:回归直线截距参数
β:回归直线的斜率
β=0时,Y的总体均数与X无关,此时回归方程无意义
统计学意义:X每变化1个单位,Y平均改变β个单位→即Y^改变β个单位
直线回归分析的任务就是建立一个直线回归方程μY|X=a+βX
直线回归模型
Y = a+βX +ε
Y~N(μY|X,σ²)
一般认为总体中同一X对应的Y近似服从正态分布,总体均数为μY|X
ε~N(0,σ²)
ε=Y-μY|X
Y是X的线性函数加上误差项
线性部分反映X变化引起Y变化
误差项ε为随机变量,反映不能由X&Y的线性关系解释的变异
样本估计的回归方程
回归方程中α、β为未知参数
Y^=a+bX
Y-hat为Y的预测值,μY|X的估计值
残差:ε^=Y-Y^,为误差项ε的估计值
反映除自变量X以外的因素对Y变异的影响
最小二乘原理
确定回归线的原则是希望估算的Y(即Y^)与实测Y之间差值(Y-Y^)越小越好
由样本资料决定回归线时,用least square method原理求解a和b两个系数
找出∑(Y-Y^)²(残差平方和,记为SS残差)达最小值时所对应的直线作为回归线
即各观察点距直线的纵向距离平方和最小
微积分求极值办法得到β估计值b
回归模型的前提假设
线性回归模型的前提条件LINE
Linear
线性即指因变量Y的总体平均值与自变量X呈线性关系。 若为非线性,却用线性回归模型来拟合,必然导致预测失去意义。
通过散点图判断Y与X是否存在线性关系
通过对回归系数β是否为0进行假设检验
为什么要对β是否为0进行假设检验? 因为抽样得到的估计值b不一定真实反映β,β=0时b不一定为0
Independent
独立性指任意两条记录互相独立,通过专业知识和经验判断
通过专业知识和经验判断
Normal
假定误差项ε服从正态分布(等价于X为定值时的Y呈正态 样本量较大时可忽略残差的正态性要求。
线性模型的误差项ε服从正态等价于X固定时Y值呈正态
由于残差ε^是误差项ε的估计值,故常检验残差是否服从正态
可通过直接对残差作正态性检验或正态概率图来检验该条件是否成立
Equal variance
方差相等。无论X取何值,Y都具有相同的方差,等价于残差的方差齐性。
无论X取何值,Y都具有相同的方差,等价于残差的方差齐性
通常可采用(Xi,Yi)的散点图或残差的散点图判断该假设的正确性
对线性条件里β的假设检验一般要求资料满足INE
线性回归分析基本步骤
1. 首先考察研究变量是否具有实际意义
2. 有实际意义的话绘制散点图判断变量间是否有线性趋势和异常点
3. 检查数据LINE特征然后求出回归方程
4. 对回归方程和回归系数进行假设检验并作出统计报告
5. 最后根据研究目的进行统计预测和控制
III. 直线回归的统计描述
绘制散点图 scatter graph
散点图,即将两变量置于直角坐标轴上,把其中一个变量取作X,另一个取作匕据此在直角 坐标系中标出对应的点(X,Y)这样得到的 图形称作散点图(SCatter graph )
可达到的目的
判断两变量间有无线性趋势
检查有无异常点 outlier
outlier离群值,即对应于残差绝对值特别大的观测数据。
求回归系数和常数项
回归系数的估计
b=LXY/LXX
常数项的估计
a=Ybar-bXbar
构建直线回归方程
Y^=a+bX
IV. 直线回归的统计推断
i. 变异的分解
求得的回归方程未必具有统计学意义,故需要对其进行假设检验,在假设检验之前需对因变量离均差平方和LYY作分解
计算的样本回归系数b和截距a一般并不等于相应的总体参数β和α,其中存在抽样误差。 因此求得的回归方程未必具有统计学意义,需要依靠假设检验。(可通过方差分析或t检验来实现)
LYY拆分:
进一步可证明
SST=SSR+SSE
SS总=SS回归+SS残差
ν总=n-1,ν回归=1,ν残差=n-2
对残差平方和求偏导时要分别求两个偏导,然后令他们等于零,这样就相当于多了两个限制条件,因此减少两个自由度。
ν总=ν回归+ν残差
离均差平方和=残差平方和+回归平方和
SST表示因变量Y的总变异
SSE表示X以外的因素对Y的影响,即总变异中无法用X&Y回归关系解释的部分
故SSE越小,不能被回归解释的部分越小,回归的效果也就越好
SSR反映了Y与X线性关系中可对Y总变异作出解释的部分
SSR越大,回归效果越好
总变异=能解释的变异+不能解释的变异
决定系数 R²
R²=SS回归/SS总=1-SS残差/SS总=r²
反映了Y总变异中回归关系能解释的百分比
当X与Y均为随机变量时,R²=r²
R²越大,回归方程解释的变异越大,构建的回归方程越好
R²反映了回归模型拟合效果,常作为反映拟合优度(goodness of fit)的指标
ii. 回归模型的假设检验及回归方程的解释
通过样本所建立的回归模型是否反映了总体的特征或规律,即我们所构建的回归方程在总 体中是否成立,是回归分析考虑的首要问题,通常采用方差分析(F检验)对回归模型进行检验。 对于直线回归模型的检验等价于回归系数β是否为0的检验,因此回归系数的检验可以使用F检验或t检验。
对于直线回归模型的检验等价于回归系数β是否为0的检验
F检验
基本思想
若总体回归方程不成立(β=0)
则总体中自变量X对因变量Y没有贡献
且样本所得回归均方与残差均方应相近
若回归均方远大于残差均方
说明总体中X对Y有贡献
此时回归平方和与回归均方反映了因变量Y与自变量X的伴随变异和随机误差变异
统计量计算
回归方程的解释
专业上的解释合理:从专业知识角度解释X&Y之间的依存关系
统计学角度判断回归方程有无统计学意义
iii. 回归系数的假设检验
检验假设+α
H0:β=0
H1:β≠0
统计量tb公式
回归系数b的标准误
Sy,x为回归的残差标准差
Sb为样本回归系数标准误
结论
可以认为A和B有
iv. 总体回归系数的区间估计
以上所求得回归系数b为总体回归系数β的点估计值,其误差可以用标准误Sb表示
公式
可信区间也可以回答假设检验提出的问题,当置信度为1 -α的可信区间不包括0时,说明在检验水准α下,总体回归系数β不等于0
V. 直线回归的统计应用
i. 描述两变量之间的直线回归关系
若存在直线回归关系,可用回归方程描述Y的总体均数与X的直线关系
ii. 统计预测
总体均数μY|X的区间估计
公式
当X任意取值时,总体均数的点估计为回归直线Y^= a+bX,其1-α可信区间为一个弧形区带,称为回归直线的置信带(Confidence band)
个体Y值的容许区间估计
给定X = X0值时,估计总体中个体Y值的波动范围,又称 为个体r值的容许区间
当n相当大,X0离Xbar非常接近时,SY|X0≈SY,X
X任意取值时,个体预测值的点估计仍然是回归直线Y^=a+bX,其1-α容许区间为一个弧形区带,称为个体值的预测带(prediction band )
均数可信区间与个体容许区间的意义区别
均数的可信区间表示基于X取某一定值时总体均数μY|X的分布情况
个体容许区间体现了X一定时,总体中个体Y值的分布范围
也称置信带
由图可见,个体容许区间带(PI)要宽于均数的可信区间带(CI)
iii. 统计控制
控制是指当要求因变量y在一定范围内波动时,如何控制自变量X的取值。 如为使一个 人的舒张压不超过90 mmHg,如何控制血清中总胆固醇含量?可通过回归方程的逆运算来 进行
第二节 线性相关分析
相关分析是用来研究两个或多个随机变量之间关联性或关联程度的一种统计分析方法。 线性相关linear correlation 又称简单相关 simple correlation:线性相关描述两变量之间的线性关联程度。 如体温与脉搏的关系、糖尿病研究中胰岛素水平与血糖的关系等
I. 线性相关的意义
散点图所能反映的趋势
linear positive correlation/线性正相关/正相关
两变量大多观察值变化趋势一致:同时增大或同时减小的直线变化趋势
linear negative correlation/线性负相关/负相关
多数情况下X增大,Y减小且呈直线变化趋势 即X与Y呈反方向直线变化趋势。
linear correlation/线性相关
零线性相关/零相关/线性无关
X与Y无任何直线变化趋势、
II. 线性相关系数/Pearson相关系数
linear correlation coefficient,简称correlation coefficient相关系数 是描述两变量之间线性相关程度和相关方向的统计指标
总体相关系数ρ
描述全体对象的两个变量之间的相关性的相关系数
通常未知,一般用r估计
无量纲
样本相关系数r
描述两个样本资料的线性相关性的相关系数 用于估计ρ。
Pearson相关系数/积差相关系数公式
r按Pearson相关系数计算的条件
X和Y符合双变量正态分布
双变量正态分布严格意义上≠两个变量都服从正态分布。实际操作依赖于双变量正态分布的一个特性,即双变量正态分布存在,则两个连续变量必然都符合正态分布。然而反过来,两个连续变量符合正态分布未必代表双变量正态分布,但能够一定程度上保证双变量正态分布。 双变量正态分布是单变量正态分布向多维的推广,它同矩阵正态分布有紧密的联系。当两个随机变量之间有直线相关关系,且这两个变量各自均服从正态分布,就形成双变量正态分布,它的图形称双变量正态曲面或正态相关曲面。
为什么要求服从双变量正态分布?
r是可以拿去t检验的。 tr=r-0/Sr 分子本应为r-ρ,但H0要求ρ=0,可知r是需要代入t分布的,故r必须满足正态分布,要想r满足正态,则需要求计算r的X和Y都满足正态。
相关程度
取值范围:-1≤p≤1
|p|越接近1,两变量线性相关程度越密切
相反,r越接近0,两变量线性相关程度越不密切。
相关方向
p>0:正相关
p=1:完全正相关
样本中所有点都集中于一条斜率>0的直线上
SS总=SS回归
此时的p不是斜率b,是相关程度。r=1就意味着相关程度拉满。
p<0:负相关
p=-1:完全负相关
p=0:零相关
两变量间没有线性相关关系
非线性相关
各点的排列呈现某种曲线趋势
考察两变量间的相关性的最常用的方法就是绘制散点图
III. 线性相关系数的统计推断
相关系数的假设检验
为什么ρ还要做假设检验
设计统计推断都需要假设检验。 r只是根据样本资料对ρ的一个点估计。从同一总体抽出的不同样本会产生不同的样本相关系数,样本相关系数之间也存在抽样误差,因此计算出相关系数后通常还应做总体相关系数P是否为0的假设检验。
检验假设
H0:ρ=0
H1:ρ≠0
α
查Pearson相关系数r界值表或计算统计量tr
相关系数的区间估计
why?
假设检验只能定性回答总体相关系数是否不为0
区间估计可完善ρ的信息
基本步骤
先对相关系数进行变量变换,常用Z转换
区间公式
IV. 线性相关分析的应用
1. 当两变量X,Y有线性趋势时,才能进行线性相关分析
2. 相关分析适用于双变量正态分布资料,否则需进行变量变换或采用其他计算方法(如秩和
3. 相关分析适用于两变量均随机取值的资料
4. 分层资料盲目合并容易引起假象
V. Spearman等级相关/秩相关
Pearson积差相关分析要求XY服从双变量正态分布。 当其中任一变量不满足正态分布或等级资料时,采用 秩相关系数rs(Spearman rank correlation coefficient)/等级相关系数 来描述两变量相关方向和程度。
适用条件
X&Y其中任意一个变量不满足正态分布
X&Y其中任意一个变量为等级资料
属于非参数统计法
基本步骤
Spearman等级相关系数的计算
Spearman等级相关系数的计算类似于Pearson相关系数,但前者应用的是数据的秩次,而非原始属于本身
将X和Y从小到大编秩,pi表示Xi秩次,qi表示Yi秩次
计算rs
样本量n<50时,直接查rs界值表更方便,否则才需要假设t检验
Spearman等级相关系数的假设检验
可采用t检验或直接查rs界值表
统计量trs计算
第三节 基本概念辨析
I. 线性回归分析与线性相关分析
regression即是用模型去套去拟合一个未知的双变量关系。关心自变量变化一个单位时,因变量变化β个单位。 而correlation看的是两变量间的关联程度,相关性越高,相关系数绝对值越接近1. 相关系数与斜率无关
线性相关分析主要考察两个变量伴随变化中的相关程度,相关程度越高相关系数绝对值越接近1,相关系数与拟合直线的斜率没有直接关系
II. 双正态分布的检验
对双变量资料直接进行二元正态分布检验相对比较复杂。 一般先对两变量线性回归之后,计算其残差,随后对残差和自变量分别作单变量正态性检验,后考察残差的方差齐性。 若残差和自变量均服从正态分布并有方差齐性,则认为XY两变量服从双正态分布。
以残差和自变量的正态性和方差齐性条件替代双正态分布条件
根据概率论中的条件概率公式P(x,y) =P(Y|X)P(X),如果固定x,y的条件概论P(Y|X)服从正态分布,X服从正态分布,则由上式可知X和Y服从双正态分布
由线性回归可知:固定X,Y服从等方差的正态分布等价于残差服从正态分布并且方差齐性。所以只要对残差,自变量作正态性检验和考察残差的方差是否齐性就可以对两个变量的资料是否服从双正态分布进行验证
残差满足正态性和方差齐性,是回归模型的前提条件。
III. 线性回归方程与线性回归模型
线性回归方程
是因变量总体均数的表达式
线性回归模型
是一个表达式: 因变量=线性回归方程+随机误差
是因变量观察值的表达式
区别
模型需要考虑到所有变量的影响,而方程中不应包含无法计算得到的随机误差
一个表示因变量总体均数,一个表示因变量观察值
回归模型的公式内涵包括了回归方程
回归模型: 因变量=线性回归方程+随机误差
IV. 线性回归分析的资料分为两种类型
I型回归资料
XY均为随机变量。
可建立X预测Y,也可建立Y预测X的回归方程。
直线回归要求因变量Y 服从正态分布,X 是可以精确测量和严格控制的变量,一般称为Ⅰ型回归
II型回归资料
Y为随机变量,X为非随机变量取值。
只能建立X预测Y的回归方程,若要用Y估计X,直接利用反函数Xhat=Y-a)/b 进行估计。
直线相关要求两个变量X 、Y 服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归
V. 线性回归中对资料的等价要求
线性回归要求X固定时,Y服从正态且其方差与自变量大小无关。 该要求等价于:残差服从正态分布且残差具有方差齐性。
VI. 均数的95%CI与个体的95%允许区间
均数95%CI
是指以95%可信度X取某一定值估计因变量Y的总体均数的范围,所估计的范围有95%几率涵盖μ。 (CI用于衡量误差范围
个体95%允许区间
X取某一定值,X所对应95%研究对象中Y观察值的分布范围。 实际上是加了线性回归模型XY的参考值范围??
VII. 回归分析与因果关系
回归分析描述的Y随X的依存关系不一定是因果关系。(X变化不一定是Y变化的原因,也可为结果。 即回归分析无法拿捏逻辑先后因果。判断因果应结合研究背景等综合判断
第五节 小结
回归分析和相关分析再概述
回归分析刻画两变量依存关系,要求资料满足LINE 相关分析描述两变量相关关系,两变量满足双变量正态时,可计算Pearson积差相关系数,若不满足则需计算Spearman等级相关系数。
二者区别
资料要求
直线回归分析要求反应变量y在给定x值时服从正态分布,x是可以精确测量和严格控制的变量
直线相关分析要求两个变量x、y均为随机变量且服从双变量正态分布
应用目的
说明两变量间相互关系用直线相关,两个变量的研究地位是平等的
说明两变量间依存变化的数量关系用直线回归, 用以说明反应变量y如何依赖于解释变量x而变化
r和b的意义
相关系数r说明具有直线关系的两变量间线性关系的方向和密切程度
回归系数方表示x每改变一个单位时μy的改变量
r和b的单位及取值范围
r没有单位,b有单位
取值范围-1≤r≤1 ,-∞ <b<∞
二者联系
1. 同组数据b和r符号(方向)一致
2. 假设检验等价
对同一样本,r和b的假设检验得到的t值相等,即tb=tr
3. 可用回归解释相关
决定系数R²=r²=SS回归/SS总
决定系数越大,回归平方和越接近总平方和,说明构建的回归方程越好,两变量间的相关关系越密切
4. 相关性与回归系数标准误Sb的关系
由tb=tr可得Sb=b√1-r² / r√n-2
相关程度越高,r²越接近1,回归系数标准误Sb越小
应用相关系数时应注意的问题
1. 相关关系不等于因果关系
2. 当观察例数较少时,相关系数容易受个别特殊值所影响,故不稳定
3. 样本相关系数接近于0并不意味着两变量间一定无相关性,也可能存在非线性(曲线)关系
4. 应区别相关有统计学意义与相关强度
第十一章 无序分类资料的统计分析
第一节 频数分布拟合优度的χ²检验
拟合优度检验 goodness-of-fit test
用于描述样本所代表的总体呈何分布。 有时并不清楚样本所代表的总体呈何分布,此时应对该总体的分布进行推断。即进行拟合优度检验。拟合优度检验不针对具体参数,而是针对分布的类型,是推断单样本的k组频数的分布与某一理论分布是否相同的一种假设检验方法。
拟合优度?
拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²最大值为1。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。
样本实际频数拟合期望(理论)频数的优劣程度
拟合优度检验基本思想
对样本所代表总体分布未知时,需对该总体的分布进行推断
针对分布类型而非具体参数
是推断单样本k组频数分布与某一理论分布是否相同的一种假设检验方法
Pearson于1900年提出一种用于检验"总体具有某种分布"的假设检验方法,即Pearsonχ²检验,为拟合优度检验最常用方法之一
Pearsonχ²检验:拟合优度检验最常用方法之一
K.Pearson在1900年提出的一个用于检验“总体具有某种分布”的假设检验方法。χ²检验为拟合优度检验最常用方法之一
统计量χ²=∑(A-T)²/T,自由度ν=k-1-g
A——actual frequency 实际频数
T——theoretical frequency 理论/期望频数
k——组数
g——以样本数据估计参数的个数
基本思想
由于是分布检验,故明确知晓目标总体分布的相关参数信息:理论频数
现需检验某样本资料服从的某一概率分布是否与目标分布一致:通过(Ai-Ti)²判断
(Ai-Ti)²是χ²统计量的一部分,通过判断其大小得出结论:样本分布是否服从目标分布
与t检验类似同可证明:
将统计量χ²的A和T换为 (X-μ)²/μ 可以猜到本质是Poisson分布。正好为可将χ²单个格子中的频数视为服从Poisson分布。Poisson的μ=σ²,与下列χ²分布公式一致  因为Poisson分布具有可加性,所以格子频数多格卡方加起来也是卡方。 至于为何会有T<5需要用校正卡方,是由于μ>5时已经近似正态,无需正态性校正。
样本含量较大且H0为真时,检验统计量χ²服从ν=k-1-g的χ²分布
最简单的推导就是,单个格子里的频数可以看做服从泊松分布。泊松分布的期望频数就等于其方差。实际频数减去期望频数,平方,再除以期望频数,就是单格的卡方统计量。卡方具有可加性,多格的卡方加起来也是卡方。补充: 两种卡方统计量,一种需要正态假设,一种不需要,原因是泊松分布(及二项分布)在期望频数大于等于5时,可以看做近似正态分布。 作者:简并 链接:https://www.zhihu.com/question/309694332/answer/577840819 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
检验步骤
1. 建立检验假设,确定检验水准
两种H0
1. 样本资料服从某一概率分布F(x)
例:该山区人群与这个地区人群的血型分布一致。
2. 两独立样本四格表 :π1=π2
α=0.05
2. 求出H0为真时各组的理论频数T
H0为真前提成立时,统计量χ²分子的两项才同质,在一个分布之中
3. 计算χ²统计量及自由度
4. 确定P值,下结论
第二节 两独立样本的四格表资料的假设检验
I. 成组χ²检验基本思想
要推断两样本率是否来自同一个总体。 二者桥梁即是二者合并计算的理论合并率,用该率*各组人数得到各组的理论频数,借用χ²检验统计量估计AT差值,不大则源于抽样等随机误差。 当然前提是H0成立,此时代入χ²分布公式的才是确实服从χ²分布的分子。
II. 两独立样本四格表资料χ²检验
四格表资料基本形式
四格表又称为2x2表
实际频数abcd是四格表的基本数据,其余数据由此派生
公式
四格表理论频数计算
设两R组的总体率相等,故用样本合并估算其理论总体率,后用理论总体率与合计项相乘得到理论频数
n:总频数
nR:第R行频数合计
row
nC:第C行频数合计
column
四格表基本公式
基本公式展开式
四格表专用公式
列联表自由度计算
ν=(R-1)*(C-1)
行频数和列频数合计值已知为n,故每行列中最后一个值都可用总数减去其余和算出来,故每行列的自由度都需要-1 故列联表自由度计算为(行数-1)*(列数-1),四格表为2-1)*(2-1)=1
四格表自由度一定为1
III. 两独立样本四格表资料校正χ²检验
为什么需要采用校正χ²检验
χ²分布是服从标准正态分布的随机变量(Z)的平方和的概率分布,属于连续型分布
Z=X-μ/σ,平方和累加出来和χ²分布公式一致。
而四格表资料是二分类变量资料,故χ²统计量的抽样分布是非连续的
只有样本量较大时(n≥40且各格子T≥5) χ²统计量才接近服从ν为1的χ²分布(连续)
不满足以上条件时,非校正的χ²值会偏大
什么情况下需要用到校正χ²检验
若n≥40,1≤T<5时采用校正χ²检验或Fisher精确概率检验
若n<40或T<1,则采用Fisher精确概率检验
Yates提出的连续性校正χ²检验
基本公式校正式
四格表专用公式校正式
IV. 两独立样本四格表资料Fisher精确概率检验
适用条件
n≥40,1≤T<5时可选,n<40或T<1时必需
基本思想
四格表周边合计不变,即理论频数不变的前提下利用超几何分布分别计算实际频数各种组合的概率
以当前样本频数组合的概率及更极端情形的概率之和作为P值,作出统计推断
双侧检验则将当前频数组合的概率以及≤当前频数组合概率的概率相加
单侧检验则以当前样本频数组合概率以及左侧或右侧更极端情形概率和为P值
实例
某一实际频数组合的概率公式
第三节 多个独立样本RxC表资料的假设检验
多独立样本无序分类资料的R行C列二维交叉表格可称为行列表资料或RxC表资料。
RxC表基本形式
基本步骤
检验假设
率的检验
H0:各组样本率所代表的总体率相等
H1:各组样本率所代表的总体率不全相等
构成比检验
H0:各组样本所代表的总体构成相同
检验统计量χ²值计算和ν
基本公式展开式
注意
要了解每两个处理率(构成比)差别情况还需进行多重比较
理论频数要求
不宜有1/5以上格子理论频数小于5或有一个格子T<1
不满足条件时的解决办法?
1||| 增大样本含量以增大理论频数
2||| 将理论频数过小的格子实际频数与其性质相近的邻近行或列实际频数合并
合并时必须注意相合并行列的性质相近,专业上能给予“合并项”合理解释。
3||| 删去理论频数过小的行列
将损失信息损害样本的随机性
有序分类变量资料,χ²只能反映构成比是否相同,比较各组效应需要用秩和检验
第四节 配对四格表资料的假设检验
概述
配对四格表基本形式
根据研究目的不同可进行2种χ²检验
两种处理比较率差别比较
将100份样品一分为二,分别用含血培养基与无血培养基接种培养,观察弯曲菌 检出情况. 如问两种培养基接种培养弯曲菌的阳性率是否相等?
两种处理效应关联性分析
将100份样品一分为二,分别用含血培养基与无血培养基接种培养,观察弯曲菌 检出情况. 如问两种培养基结果间是否有关联性?
配对四格表资料两种处理的差别分析/McNemar检验
为什么推断T1,T2总体阳性率是否相等只需推断总体B=C即可?
T1阳性率a+b/n T2阳性率a+c/n 若b=c,则二者阳性率相等,因此推断二者总体阳性率是否相等,只需推断总体B=C即可。假设检验仍可采用χ²检验,称为McNemar检验。
检验统计量χ²公式
原公式
当H0: B=C成立情况下b与c理论数应相等,均为b+c/2
b+c≥40时
b+c<40时
基本步骤
H0:两样本率相同
计算χ²
确定P
配对四格表资料两种处理效应的关联性分析
假设检验步骤
检验假设+检验水准
H0:两种处理效应之间无关联性
求检验统计量χ²值和自由度ν
确定P值,下结论
若两处理效应间存在关联性,需进一步定量表达关联程度的大小
常用度量指标:关联系数r
2x2表资料中r取值(-1,+1)
r为负则负相关,r为正则正相关
r绝对值越大,其关联程度越高
r表达式
ad>bc时,r为正
ad<bc时,r为负
第五节 基本概念辨析
1. 配对四格表χ²与成组设计χ²不能混用
配对资料非独立,而成组资料独立, 故配对资料不能用成组设计的χ²和Fisher检验,需用配对设计的χ²或直接计算概率法检验
2. 样本量很大时的统计检验与Fisher检验
实际研究中两组样本率一般由研究者自己确定。
3. 拟合优度检验和χ²检验的关系
4. Fisher检验中P值计算与多个四格表概率累加
假设检验中不是考察检验统计量或随机变量某个取值的概率是否为小概率事件,而是把其可能的取值范围划分为拒绝域和非拒绝域,若检验统计量或随机变量取值在拒绝域内则拒绝H0,反之则不能拒绝
Fisher检验中四格表行列合计数固定,只需确定一个数其余3个即可算出,故常考查其中一个数a即可
a的取值对应概率由小到大,故应将概率从小到大累加至0.05确定拒绝范围
卡方检验汇总
1. Pearson's chi squared test(Pearson卡方检验)
当N≥40且所有理论频数T≥5
2. Yates's correction for continuity(耶茨的连续性修正)
当n≥40但存在某一个格子的理论频数T<5
3. Fisher's exact test(Fisher确切概率法)
当n≥40但存在某一个格子的理论频数T<5
当n<40,或存在某一个格子的理论频数T<5
4. McNemar's test(McNemar检验)
由美国心理学家、统计学家Quinn Michael McNemar提出,是对 一对名义数据(paired nominal data)进行检验的方法,应用于行与列变量都是只有两个对立面的无序分类变量的2×2列联表(2×2 contingency table),以确定行与列的边际频数是否相等,即是否具有边际同质性(marginal homogeneity)。这样说起来很拗口,其实就是检验行列是否相关
5. Cochran–Mantel–Haenszel test(CMH检验)
CMH检验算是广义的McNemar检验,McNemar检验算是CMH检验的特殊情况
6. Chi-square goodness of fit test(卡方拟合优度检验)
第十二章 有序分类资料的统计分析
等级资料若选用RC列联表的χ²检验,只能推断构成比之间的差别,将损失等级信息。如p199的实例
第一节 两独立样本有序资料的统计分析
分组变量多分类有序,指标变量两分类无序
目的是比较分组变量不同水平下某指标变量的发生率
如比较不同年龄段(等级)儿童某病毒抗体阳性率(2分类无序)资料
本质上都是多个样本率比较的问题
可将分组变量视为无序,采用χ²检验进行多个样本率的比较
分组变量两分类无序,指标变量多分类有序
目的是比较分组变量不同水平下某指标变量的平均水平(等级资料)是否有差异
如两种药物的疗效差异(无效有效好转治愈)比较
此时χ²检验不再适用,可采用Wilcoxon秩和检验
两独立样本等级资料的Wilcoxon秩和检验
步骤
检验假设+α
混合编秩,求各组秩和
计算检验统计量
n1≤10且n2-n1≤10时:查表法
默认n1为样本量较小的那一个
n1>10或n2-n1>10时:正态近似法
同秩矫正公式
Zc=Z/√c
c的计算看p100
第二节 多个独立样本的统计分析
多独立样本定量资料选用方差分析。 但对于多独立样本等级资料可用Kruskal-Wallis test代替。
Kruskal-Wallis test检验步骤
检验假设+α
H1:三个穴位的镇痛效果不全相同
混合编秩号
计算检验统计量H
若等级资料存在大量同秩情况,则采用矫正公式Hc=H/c
求P值,下结论
多个样本两两比较
Wilcoxon秩和检验
若推断各总体分布不同,则需进一步作两两比较的秩和检验
建议采用Wilcoxon秩和检验对两两组间逐一分析
检验水平α要调整为α'=α/k,k为比较的次数,以减少第一类错误的概率,但检验效能会下降
Nemenyi法
检验统计量公式
上述2法比较
Wilcoxon
计算较复杂但检验效能较高
Nemenyi
在K-W H检验基础上计算简便,易于理解
第三节 有序分类资料的相关关系分析
实际工作中还有可能遇到双变量有序分类资料相关关系研究的问题。比如:探索年龄(老中青)与某疾病严重程度(轻中重)之间的关系。 用Spearmann等级相关法分析双变量等级资料。
假设检验步骤
1. 检验假设+α
H0:ρ=0,两因素不相关
H1:ρ≠0,两因素相关
2. 将两等级变量X,Y分别编秩
X,Y同列从小到达编,秩次分别用P,Q表示,有相同观测值则取平均秩
3. 计算Spearman等级相关系数rs
4. 查表确定P值,下结论
样本量小于50可直接查rs界值表确定P
第四节 有序分类资料的线性趋势检验
用于推断两个变量之间是否存在线性相关
I. 等级资料RxC表分类
单向有序RxC表
单变量有序分类资料的秩和检验中,分组变量无序,评价指标变量有序,这样的资料可整理为RxC表,且属于单向有序RxC表
双向有序RxC表
在有序分类资料中,还常常碰到分组变量与指标变量的取值均为有序的情况,此时获得的 资料可整理为双向有序R X C表
若双向有序RxC表资料中行列变量属性相同,则其实际上是配对四格表资料的扩展,即水平数≥3的区组资料,研究目的通常是分析两种检测方法结果的一致性,宜用一致性检验
若RxC表中,行列变量属性不同,除可推断两个分类变量是否存在相关关系外,还可通过χ²分解推断其相关是否为线性相关,即有序分类资料的线性趋势检验(Iinear trend test)
II. 线性趋势检验的基本思想
将R×C表χ²值分解为线性回归分量与偏离线性回归分量两部分
若两个分量都有统计学意义,可以推断两个分类变量存在相关关系,但不是简单的直线关系
若线性回归分量有统计学意义,偏离线性回归分量无统计学意义,可以推断两个分类变量不仅存在相关关系,而且是线性关系
III. 线性趋势检验的基本步骤
检验假设+α
H0: 两变量之间不存在线性变化趋势
计算检验统计量
χ²总
χ²回归
χ²偏离回归
根据P值下结论
第五节 基本概念辨析
I. 秩次、秩次范围与平均秩次
秩次 rank
rank是变量值按照从小到大顺序所编的序号
秩次范围这个
秩次范围是在等级资料排秩基础上,为较多取值相同的观测值划分的秩次分布范围。 如疗效等级资料分“痊愈、好转、有效、无效”,如痊愈的50人中,很难再进行排序,但以等级次序可将这50人排在秩次1-50的位置上。
平均秩次
同一秩次范围内的观测值取值上相等,应赋予相同的秩次,因此根据秩次范围计算平均秩次作为每个观测值的秩次。 首项加末项*项数/2
II. 秩变换检验与秩和检验
秩变换 rank transformation?
秩变换与秩和检验不同。 秩变换方法中取秩后秩次数据使用t检验或方差分析等统计分析,没有考虑同秩(tie),故一般在等级资料中应用秩变换进行统计分析时会受同秩影响较大而导致误差增加。
III. 秩和检验中的检验假设
秩和检验的2种检验假设
1. 分布的检验
H0:两样本服从同一总体分布
H1:两样本服从不同的总体分布
2. 位置的检验
第2种位置检验是假定两个样本属于同一分布族
H0:两样本对应的两个总体的位置相同
H1:两个样本对应的两个总体位置不同
表达式
假定第一个样本的累积分布函数为F(x),第二个样本的累积分布函数为F(x+θ)
H0:θ=0
H1:θ≠0
θ为位置参数,如两样本均服从正态分布,只是两个分布的x位置相差位移一个参数
两种检验假设检验效能的区别
若两样本服从不同类型概率分布,虽然可用秩和检验,但检验效能较低
若两样本属于同一分布族,秩和检验的检验效能则相对较高
注意
非参数的秩和检验中,第二种检验假设是第一种的特殊情况,要求资料满足同一分布族并且只是位移的差异
第一种检验假设更适合一般情况
在没有充分证据证实资料所属总体分布只是相差位移的情况下,不要轻易把秩和检验视为位置的饿检验
第六节 实例
区分资料类型,正确选择分析方法
有序分类资料用χ²检验仅能比较内部构成比,忽略了等级信息
根据研究目的,正确选择分析方法
分析双向有序RxC表等级资料时研究目的不同,分析方法也不同
目的为分析不同病程组患者疗效之间有无差别
可将其视为单向有序RxC表资料,将欲比较的病程租变量视为无序
采用Kruskal-Wallis H检验进行不同病程租间疗效比较
目的是分析两个有序分类变量之间是否存在相关关系
如分析某病病程与疗效间是否有相关关系
宜用Spearman等级相关分析
目的是分析两个有序分类变量间是否存在线性变化趋势
如分析某病的病程与疗效之间是否有线性变化趋势
宜用本章第四节中介绍的有序分类资料的线性趋势检验分析
第七节 小结
资料特点及对应的主要分析方法
多个样本两两比较可采用Nemenyi法和Wilcoxon秩和检验
第十三章 单样本与总体比较的统计分析
例如,已知正常人群的谷草转氨酶(ALT)的平均水平,研究者欲研究患有慢性乙肝人群的ALT平均水平是否高于正常人群的平均水平,一般可以采取在慢性乙肝人群中随机抽取一个样本,对每个抽到的对象检测ALT,比较该样本的ALT平均水平与正常人的ALT的平均水平有无统计学差异,从而作出统计推断。 诸如类似的研究很多,这类研究可以归结为某个未知总体的单个样本资料与某个已知总体的分布特征或参数比较的统计问题。
第一节 单样本分类资料与总体比较
I. 样本率与总体率的比较
目的
推断样本是否来自总体
即样本率P和总体率π0之间的差异是否由抽样误差所致
(非抽样误差的话可以认为二者本身存在差异
方法
正态近似法
适用条件
n较大
P与1-P均不太小,一般要求nP(1-P)>5
此时率的抽样分布近似正态
检验假设
H0:π=π0
π为样本所在总体的总体率。 π0为已知总体的总体率
检验统计量Z
P为样本率π的点估计
H0: π=π0成立时,|P-π0|一般较小或很小,Z绝对值一般较小或很小,且近似服从标准呈正态分布
H1为真时,|P-π0|一般较小较大或很大,检验统计量Z的绝对值一般较大或很大
故当|Z|>1.96时,对于H0而言是小概率事件
当H0确实不成立,且样本含量一定时,检验效能仅受π-π0影响
直接概率计算法
适用条件
n较小
P或1-P接近于0
按照二项分布原理直接求出P值
基本原理
确切概率法
II. 平均事件发生数的比较
一般认为在单位时间、空间或人群中某独立事件的发生数服从于PoiSSon分布。若需检验样本所来自总体在观察单位内的平均事件数μ是否等于已知总体的观察单位内的平均事件数μ0,可根据样本事件数的大小酌情采用正态近似法或直接概率计算法
方法
正态近似法
检验假设
H0:μ=μ0,单位观察时间内样本所在总体的平均事件发生数等于已知总体..
适用
Poisson分布的样本观察事件总数>30,即μ≥20
平均事件数计算
观察单位数为n
每个单位中分别观察到Xi个阳性事件
检验统计量Z
直接计算概率法
无法使用正态近似法时,可以按照PoiSSon分布的原理,直接求出假设检验的P值
第二节 单样本定量资料与总体比较
I. 均数的比较
资料来自定量正态分布总体
单样本t检验
资料略偏离正态但样本量够大
t检验
资料经单调变换后才近似服从正态
对变换值采用t检验
II. 中位数和百分位数的比较
适用
资料极度偏离正态
样本量不太大
样本均数不近似服从正态
此时无法用t检验,可考虑对中位数进行检验
检验假设
以θ0.5代表样本所来自总体的总体中位数
θ0代表某个已知总体的中位数或某个已知常数
H0:θ0.5=θ0
θ0.5及小于50%也大于50%的百分位数,即中位数
检验总体中位数是否等于已知常数的方法
基于二项分布的二项分布检验 Binomial test
基本思想
若样本所来自的总体中位数=已知常数,则总体中随机抽样所得的观察值大于已知常数θ0的概率π应等于0.5
规定随机抽样所得观察值大于已知常数θ0的概率为π(理论概率为π0),π需用p来估计
即检验样本中观察值大于已知常数θ0的频率p与0.5之间的差异是否由抽样误差导致
p的算法即数出样本资料中大于θ0的观察值的个数。
nπ0(1-π0)>5
此时单样本的样本率近似正态
若实际频率p不是中位数,则分子差值将较大
nπ0(1-π0)≤5
确切概率法计算P值
基于秩次的方法
总体分布对称/近似对称、连续时
Wilcoxon符号秩检验
较"基于二项分布的方法"相比,Wilcoxon充分利用信息,检验效能较高
与配对设计一致都运用了差值、中位数,有正负故为符号秩和
资料分布类型不明
二项分布检验
已知资料对称且正态
t检验
III. 资料分布的对比
若关心样本所来自总体分布是否与已知分布相同,单纯对均数或中位数进行检验都不够全面
此时考虑拟合优度检验的思路,利用Pearsonχ²统计量进行统计推断
第三节 基本概念辨析
I. 确切概率法的基本思想
本质是把样本点或检验统计量的各种可能取值的范围分为拒绝范围和不拒绝范围
H0为真情况下,样本点或检验统计量出现在拒绝范围的概率(犯I错概率)≤α,故当样本点或统计量落在拒绝范围,则拒绝H0
本质是确定拒绝域
对应样本点及其更小概率的累加所得的概率和,≤α才是拒绝域
定义确切概率法双侧检验的P值
P值=满足(X可能取值的概率Pi≤样本点概率)的各个Pi之和
确切概率法单双侧检验概率计算区别
双侧P
从H0对应的总体中随机抽样,获得的样本概率≤现有样本的概率的累积概率
如现有样本值对应概率为P,那么比P值更小的范围值就更应该归为拒绝域
单侧P
从H0对应的总体中随机抽样,获得的样本率比现有样本的样本率更加或相当背离H0及更加符合H1的累积概率
II. 双侧P值为单侧P值两倍?
定量资料中,双侧检验P值是同一资料单侧检验P值的两倍
对于率和事件数检验的直接改率计算法,由于二项分布和Poisson分布大多情况下不对称,故双侧P值并非单侧的两倍
第十四章 生存分析
除了关注对象的某事件是否发生,还关注此事件所发生的时间。
第一节 生存分析中的基本概念
1. 失效事件 failure event
为什么用failure,起自于最开始生存分析只研究生存和死亡,死亡被视作failed 定义是指根据研究目的确定的发生某一特定现象或某种特点的事件。 例如研究胃癌,因胃癌死亡即想要观察的特定事件(失效事件),而非胃癌原因死亡如车祸等,死因与胃癌无关,不能认为发生失效事件。
判断是否为失效事件要看事件与研究疾病是否相关
2. 终检 censor
因发生失访或其他原因终止随访而未观察到失效事件发生。
终检3大情况
1||| 直到研究结束对象也未发生失效事件
2||| 研究者和对象中途失去联系
如搬家造成失访、不愿配合拒绝研究等。
3||| 研究过程中对象死于非研究事件
3. 起点时间 start point time
研究者根据研究目的所定义的开始随访的起点时间
同类型不同目的的研究,起始时间可不同
如目的为研究肿瘤术后效果,起点时间应为手术时间
如目的为研究肿瘤患者总生存期,起点时间应为确诊时间。
并不严格要求所有观察对象在同一时间开始随访
如研究肿瘤患者生存期,应根据各自的确诊时间而定起点时间
4. 生存时间 survival time
观察对象从起点时间开始到发生失效事件或终检所经历的时间。 就算非死亡性终检也算生存时间?
完全数据 complete data
对象从观察起点到出现失效事件所经历的时间。
截尾数据censored data
对象发生失效事件之前发生终检而停止观察的观察资料。
截尾时间 censored time
起点时间到发生截尾的时间。
由于其实际生存时间应该超过截尾时间,故通常在生存时间上标+表示
5. 死亡概率 mortality probability
记为q,q=该人群某时段总死亡例数/某人群同时段的期初观察例数。 (需保证该段时间内无截尾数据
6. 生存概率 survival probability
记为p,p=该人群活过某时段的例数/某人群同时段的期初观察例数=1-q (该时段内无截尾数据
一般情况下: p=1-q
7. 生存率 survival rate
S(t)=P(T≥t)
被观测对象历经t个单位时间后仍存活的概率,S(t)表示。 T为被观测对象的实际存活时间
无截尾数据的估计式
有截尾数据的估计式
无截尾数据的估计式不再适用
p1p2...等分别表示各时段的生存概率,故生存率是多个时段生存概率的累积
故生存率因此被称为累计生存概率 cumulative probability of survival
8. 生存曲线 survival curve
时间横轴
生存率纵轴
各时点生存率相连
9. 中位生存时间 Median Survival Time
累计生存率0.5时所对应的生存时间点。表示有且仅有50%个体可活过这个时间,往后走生存率<0.5 (中位生存时间通常不等于生存时间中位数
中位生存时间通常不等于生存时间中位数
中位生存时间越长,表示疾病预后越好;中位生存时间越短,表示疾病预后越差
第二节 生存曲线估计/描述
总体生存曲线通常未知,需要用样本生存分析资料估计。
Kaplan-Meier法/乘积极限法(PL法)
又称乘积极限法 product-limit method,PL法。
适用条件
每个对象均有确切的生存时间的资料
含截尾时间
思想
利用tk时刻前各时点上生存概率的乘积来估计时刻tk处的生存率
不需要对被估计的资料分布做出任何假设,故其属于非参数估计
方法步骤
(1) 按生存天数从小到大排序
(2) 计算各个tk前存活数和各tk时死亡数及tk后截尾数
(3) 计算各tk时死亡概率q=d/n
(4) 计算各tk的生存概率p=1-q
(5) 计算各tk生存率,比值法或累积法
(6) 以t为横坐标,生存率纵坐标,绘制生存曲线图
寿命表 life table
分类
现时寿命表 current life table
基于特定人群的横截面调查资料中不同年龄组尚存人数和死亡人数估计死亡率、生存率和期望寿命等。
定群/队列寿命表 cohort life table
基于生存时间分组的随访频数分布资料进行生存率估计
完全寿命表
年龄分组是每1岁为1组的寿命表为完全寿命表
简略寿命表
年龄分组是每5岁为1个年龄组的寿命表即为简略寿命表。 但必须注意,因为婴儿死亡率对于寿命表影响很大,所以简略寿命表将第1个5岁年龄 组再细分为2组,一个是组距为1岁的“0〜"岁组,另一个是组距为4岁的“ 1〜”岁组。
特点
由于是频数表,故只有各组段的失访对象人数,而没有确切的失访时间
一般假定发生失访得时间点在对应得区间内呈均匀分布
以各段中位数估计平均观察例数,也称为校正观察例数
两种方法的比较
关于适用资料
1. 寿命表适用于大样本或无法准确得知研究结果出现时间的资料-分组资料
2. KM法大小样本均适用,但要求每个观察对象有确切的死亡和截尾时间-未分组资料
所计算的生存率差异
1. 寿命表按指定时段分段,估计的是时间区间右端点上生存率
2. KM法根据死亡时点分段,逐个估计死亡时点生存率
生存曲线图差异
1. 寿命表法将各组段间生存率用直线连接
对明确的生存和死亡时间未知,故假定各时间段死亡发生时间和失访发生时间呈均匀分布,故每个时间段中生存率呈线性变化
2. KM法生存曲线是右连续的阶梯型曲线
指定横坐标生存时间时点可对应一段生存率值。 每一段的累积生存概率均可计算,故没有新死亡时曲线水平,出现新死亡后需累积新的生存概率,故生存率会下降到达新的平台。
中位生存时间的估计
在寿命表法基础上进行估计
原理:借用曲线段斜率计算
在Kaplan-Meier法基础上进行估计
观点一:认为中位生存时间为生存率降至0.5或以下的首个生存时间
观点二:应用寿命表法的中位生存时间插值公式估计
即图解法和线性内插法
第三节 生存曲线之间的检验
多条生存曲线间的差异检验方法
参数检验方法
检验效能高但对资料要求较高
且多数情况下甚至难以验证资料是否符合参数检验要求
半参数检验方法
对资料有一定要求,且计算方法较复杂
非参数检验方法
仅要求每个观察对象的资料是独立的,故适用范围最广
主要应用非参数检验法——Logrank检验
基本思想
实际死亡数与期望死亡数之间的比较
与方差分析类似一致
具体分析步骤
1. 建立检验假设
H0:两样本总体生存函数曲线相同
H1:两样本总体生存函数曲线相同
2. 设置统计检验水准
α=0.05
3. 按时间排序,将两组未截尾完全生存时间混合后从小到大排序
4. 将各生存时间点期初观察数按组别归入,构成2x2表
按四格表χ²检验原理计算理论死亡数
计算各组实际与理论死亡数的差值
计算每个生存时间点所对应四格表资料的方差
5. 计算Logrank检验统计量χ²
Logrank检验注意事项
1. 为非参数检验,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料
2. 其检验效能仅与发生失效事件的人数有关
3. 一般要求各组生存曲线不能交叉,否则需要采用分段分析或采用多因素方法来分析
4. Log-rank检验是一种单因素的统计分析方法,并没有考虑其他因素的影响
第四节 基本概念辨析
I. 中位生存时间与Logrank检验推断之间的关系
不能误解为Logrank检验是多个人群中位生存时间是否相同的问题
不能用Logrank方法检验两个总体中位生存时间是否相等
中位生存时间指样本对象实际生存时间超过中位生存时间的概率为50%
II. 中位生存时间存在的问题
若样本资料出现大量失访情况,以致样本中超过中位生存时间的生存时间均为截尾数据,对应的生存曲线段为水平直线,无法估计中位生存时间
III. Kaplan-Meier法和寿命表法所适用的范围
生存时间均为确切的测量值时,选用KM法
对于频数表资料或无确切生存时间的资料,选用寿命表法
IV. Logrank检验与两条生存曲线相交的问题
若判断两条生存曲线差异有统计学意义,若两曲线相交,则难判断哪一个生存率更高,此时应要求两曲线基本不相交
相交时的检验推断存在偏倚。
也不能简单说Logrank要求两样本不相交,因为H0假设两曲线相同,会有多处相交
若存在相交,需以交点为界分段检验
第十九章 医学人口统计和疾病统计
主要为人群健康状况的统计分析,包括医学人口统计和疾病统计
第一节 医学人口统计
人口统计demography,是政府制定规划政策的重要依据也是工作考核参考资料
医学人口统计资料分类
静态人口统计 census statistics
由人口普查获得,为某一时点的人口状况,如人口数量、年龄、性别、职业、民族、文化程度等。
动态人口统计 vital statistics
主要通过登记、报告获得。 又称生命统计,内容包括出生死亡婚姻等生命事件,是期间资料,通常以一年为计算单位。
人口数量和构成
人口数 population size
也称人口总量 total number of population. 指一定时点、一定地点范围内所有存活人口的总和。
影响因素?
一个国家或地区人口数受出生、死亡、迁出、迁入等的影响
如何统计?
常采用时点资料,即统计该地域内某一特定标准时刻上的瞬时人口总数。 需分别统计标准时刻前出生或死亡的人,时刻之后不管。
国际上如何统计人口数?
原则
按惯例采用一年的中点即7月1日零时作为标准时刻以统计人口数。
2种统计方法
只计调查时刻某地实际存在的人数
即包括了临时在该地的人
只计某地常住人口:在某地居住满一定时间的人数
还需说明是否包括如下人口
1. 土著居民和游牧部落
2. 常住国外的军政人员及家属
3. 常住本国但普查时于国外的公民
4. 住本国的外国军政人员及家属
5. 暂住本国的外国公民
人口构成 population composition
如何计算表示
人口构成按照不同的人口学特征计算
人口学特征包括年龄性别文化程度等
人口金字塔 population pyramid
将年龄性别结合起来表示人口构成
横坐标为年龄组人数构成比,纵坐标为年龄分组
常用指标
性别比 sex ratio
又称性比例,为男性人口数与女性人口数的比值。 (不是单纯比值,你特么还乘了100
不同年龄阶段性别比差异
出生时一般为103-107
综合起来女性胚胎死亡率高于男胚
青壮年约为100左右
老年时期常在100以下
老年人口比重 proportion of old population
65岁以上的人口称为老龄人口,老龄人口比重是指65岁及以上的人数占总人口数的比例(发展中国家常选60岁以上人口
进入老龄化人口aging population?
一般认为老龄人口比重超过7%或60岁以上人口比重超过10%
抚养比 dependency ratio / 人口负担系数
抚养比是人口中非劳动年龄人数与劳动年龄人数之比。 一般定义15-64岁为劳动年龄,0-14岁与65岁及以上为非劳动年龄或被扶养年龄。
又称人口负担系数,反映劳动人口负担程度的指标,此值取决于人口年龄结构类型
出生统计
测量生育水平的指标
为什么人群生育水平的测量比死亡水平测量复杂?
1. 一个人一生就一次死亡,而一名妇女一生可有多次生育
2. 每一次死亡只有一个人,而每次分娩不一定就一个孩子,活产数按孩子数计算
3. 活产判定复杂
WHO对活产的定义:妊娠的产物完全从母体排出时,具有呼吸、心跳、脐带动脉搏动、明确的随意肌运动四种生命现象之一,即为活产。 无论这种生命现象持续多长时间,即出生后短时间死亡的活产也是活产。
4. 生育指标分母的确定
分母不能仅用15-49岁育龄妇女,实际生活中15岁以前或49之后也存在生育现象。
常用指标
粗出生率 CBR
crude birth rate。只能粗略反映生育水平
评价
优:资料易得计算简单
缺:受人口年龄、性别构成影响较大
生育期女性中年轻人口比重较大时该指标会高估,反之会低估?
总生育率 GFR
general fertility rate,
分母可替换为平均人口数或年中人口数
评价
总生育率消除了性别构成对生育水平的影响
该指标受育龄妇女内部年龄构成的影响
不同年龄阶段生育能力差别很大
年龄别生育率或年龄组生育率 ASFR
age-specific fertility rate
评价
消除了育龄妇女内部年龄构成对生育水平的影响,比GFR又进了一步
终生生育率 LTFR
life-time fertility rate,是指每名妇女一生中平均生育的孩子数(活产数)
评价
反映某批妇女整个生育期的生育水平,意义较直观明确
不可用于现况或近况分析
LTFR不是一般意义的频率,而是平均数
资料一般通过对超育龄期妇女的回顾性调查获得
总和生育率 TFR
total fertility rate,按某年或某几年各年龄组生育率推算,这批妇女一生中平均生育几个孩子(活产)。 实质上是对某几年生育率的综合评价
总和生育率=n*各岁组生育率之和
n为年龄分组的间隔岁数
评价
不受性别、年龄构成影响
不同年度或地区可直接比较
测量人口再生产的指标
人口再生产的结果一般用人口发展指标来表示。 人口的再生产包括人口的出生和死亡,因此该指标必须依赖出生和死亡两方面资料计算
自然增长率 NIR
natural increase rate
自然增长率=粗出生率-粗死亡率
评价
优点是计算简便能反映实际水平
粗出生和死亡率均受人口年龄和育龄妇女影响,故NIR只能粗略反映出生和死亡水平
粗/总再生育率 GRR
gross reproduction rate,实质上是育龄妇女生育女孩的总和生育率。 未来人口发展主要取决于母亲一代所生的女婴数
GRR=n*每1k名妇女所生女婴数
n为表格中的年龄间隔岁数
净再生育率 NRR
net reproduction rate GRR没有考虑到并未进入育龄期便夭折的女性,NRR在出生总数中扣除了女婴死亡数。
5Lx/lx为每名妇女在X~X+5岁期间内的生存人年数,若无死亡5Lx/lx=5 由于存在死亡,5Lx/lx总是小于5,并且岁年龄增加该值会渐小。 即NRR为期内女婴活产数乘以期内妇女生存人年数,其扣除了女婴死亡数,为净剩人数,即为能替代母亲一代执行生育职能的女婴数。
NRR=1.0
更替水平生育率
若出生死亡率都不变,NRR=1.0时,则未来人口保持恒定,此时的总和生育率称为更替水平生育率
NRR>1,未来人口增多
NRR<1,未来人口减少
平均世代年数 LG
mean length of generation。指母亲一代所生女孩取代母亲执行生育职能所需的年数,即两代人的间隔年数。 分子是人年,分母是人数。 分子是育龄妇女人数*她们的生存年数=5Lx/lx 分母为能够执行生育职能的女婴数 即育龄妇女生存总人数*生存年数=能执行生育职能的女婴数*替代生育所需时间 默认等号前为定值,则LG越大,NRR越小
评价
LG越短,人口发展速度越快
反之亦然
死亡统计
WHO对死亡的明确定义:在出生后的任何时候,全部生命现象永远消失称为死亡。 活产前的死亡称为“胎儿死亡”,不包括在生命统计的死亡之内。
常用死亡水平的指标
粗死亡率 CDR
crude death rate, CDR,也称总死亡率,指某地某年平均每千人口中的死亡数,反映居民死亡水平。
评价
与CBR一样,资料已获得、计算简单,但受人口年龄、性别构成的影响
一般情况下老人和婴儿死亡率较高,男性死亡率高于女性
要消除人口的性别、年龄构成影响,可采用标准化死亡率比较
统计的资料如果人口年龄和性别构成太悬殊,需要通过标化来消除影响。
年龄别死亡率 ASDR
age-specific death rate,也称年龄组死亡率,指某地某年龄组平均每千人口中的死亡数。
ASDR规律
0岁组死亡率较高,之后岁年龄增长迅速下降
10-14岁死亡率降至最低值,之后略有上升
40岁以前处于低水平,之后死亡率随年龄增长而增高
婴儿死亡率 IMR
infant mortality rate,指某年平均每千名活产中不满1周岁婴儿的死亡数。
意义
婴儿生命较脆弱及对外环境抵抗能力差,常因早产、出生缺陷等疾病死亡
IMR高低对期望寿命有重要影响,是反映社会卫生状况和婴儿保健工作的重要指标
是死亡统计中较敏感的指标
不同地区时间IMR可直接比较
许多生命统计报表中以IMR替代0岁组死亡率
新生儿死亡率 NMR
neonatal mortality rate, NMR指某地某年平均每千名活产中未满28天的新生儿死亡数
有了IMR为什么还要算NMR
婴儿时期前4周死亡人数所占比重较大(约占婴儿死亡人数的70%),通常出生后28天死亡率往往高于28-1岁的死亡率 因此降低NMR是降低IMR的关键,NMR与IMR同为反映妇幼卫生工作质量的重要指标。
若新生儿死亡数占婴儿死亡数占比较低,则表明存在新生儿死亡漏报,造成二者都偏低
围生儿死亡率 perinatal mortality
围生期是指胎儿体重达到1000g及以上,或怀孕28周后到出生后7天以内的时期。 此期间内的死亡称为围生儿死亡
公式
相关概念
围生期
围生期是指胎儿体重达到1000g及以上,或怀孕28周后到出生后7天以内的时期
死胎
指妊娠第28周以上,临产前胎儿死于子宫内,出生后无生命征兆者。
死产
妊娠28周及以上,临产前胎儿存活,产程中胎儿死亡,出生后无生命征兆者。
评价
衡量孕前、孕期、产期、产后保健工作质量的敏感指标之一
不能直接从出生死亡报告中直接计算,需利用产科记录分析
5岁以下儿童死亡率 child mortality under age5
许多发展中国家,IMR资料不准确,故用此指标替代反映婴幼儿死亡率。
评价
近年来国际组织推荐并应用较多的综合反映儿童健康水平及变化的主要指标
孕产妇死亡率 maternal mortality rate
指某年中由于怀孕和分娩及并发症造成的孕产妇死亡人数与同年出生活产数之比,以万分率或是万分率表示。
孕产妇死亡定义
妇女在妊娠期至产后42天内,由于任何与妊娠有关的原因所致的死亡称为孕产妇死亡。但不包括意外事故死亡。
妊娠相关死亡原因分类
直接产科原因
包括妊娠合并症(妊娠期分娩期及产褥期)的疏忽、治疗不正确等导致死亡
间接产科原因
妊娠前存在疾病,由于妊娠使病情恶化引起的死亡。
评价
孕妇死亡率计算需根据医疗部门诊断资料
可评价妇女保健工作
可反映国家卫生水平
死因别死亡率 cause-specific death rate
指因某种原因所致的死亡率
反映死因构成及死因顺位的指标
死因构成比或相对死亡比
proportion of dying of a specific cause 指全部死亡人数中,死于某死因者所占的百分比,说明各种死因的相对重要性。
死因顺位
按各类死因构成比的大小从高到低排列的位次,说明各类死因的相对重要性。
死因分类原则
根本死因 underlying death cause
WHO定义: 引起直接导致死亡的一系列病态事件的疾病或损伤 造成致命损伤的事故或暴力的情况
为什么制定根本死因?
从防止死亡角度出发,寻找根本性致死原因。 该原因可能是一个明确诊断,也可是一个意外损伤或中毒,或一个不明确的医学情况
确定根本死因的原则
ICD分类死因统计
第二节 疾病统计
疾病统计是研究居民健康状况的重要方法
疾病统计资料的收集
疾病报告和报表资料
医疗机构诊治记录
病伤缺勤登记
健康检查
疾病调查和监测
疾病分类
国际疾病分类简介
ICD-10的基本结构和分类原则
分组
流行性疾病
全身性疾病
按部位排列的局部疾病
发育性疾病
损伤
疾病统计常用指标
反映疾病发生水平的指标
发病率
患病率
感染率
反映疾病构成情况的指标
第三节 寿命表
生命表/life table 是根据特定人群的年龄组死亡率编织出来的一种统计表。
分类
现时寿命表 current life table
定群寿命表 cohort life table
现时寿命表的编制方法
年龄别死亡率
年龄别死亡概率qx
x岁时存活的人在后继的n年内死亡可能性大小。
q0组婴儿死亡概率一般用婴儿死亡率或校正婴儿死亡率来替代估计
寿命表尚存人数lx与死亡人数dx
去死因寿命表
cause eliminated life table,用于研究某种死因对居民死亡的影响。
基本思想
假定消除某种死因,原该死因死亡人未死亡,寿命即延长。
优点
以某死因损耗的期望寿命和尚存人数合理说明该死因对人群生命的影响程度
去死因寿命表既能综合说明某死因对全人口作用,还能分别说明其对各年龄段人口作用
不受人口年龄构成影响,便于比较
寿命表分析
第四节 其他反映卫生服务效果的人群健康状况指标
减寿人年数 PYLL
potential years of life lost,定义为发生在预先确定的年龄终点前的每例死者所损失的寿命年数。 预先确定的年龄终点常称为目标生存年龄,通常定为70岁或期望寿命。
示例
从出生到70岁以下各年龄组该病的死亡人数与各年龄组减寿年数的乘积之和
评价
将死亡人数与死亡年龄结合考虑,能反映某疾病对整个人群寿命的影响,弥补死亡率只考虑死亡人数的缺陷
无残疾期望寿命 LEFD
life expectancy free of disability 期望寿命以死亡为观察终点,LEFD则以残疾作为观察终点。 用寿命表的计算原理扣除残疾状态下所耗的期望寿命,可得出无残疾状态的期望寿命。
评价
能更好反应一个国家社会经济发展和人民生活质量的综合水平
健康期望寿命 ALE
active life expectancy ALE以生活自理能力丧失为健康判断终点,用寿命表原理计算而得
质量调整生存年 QALY
qualitu adjusted life years 把生存时间按生存质量高低分为不同阶段,每个阶段给予不同权重,从而得到质量调整生存年。
疾病负担 BOD
burden of disease
评价指标
DALY=YLL+YLD
YLL为疾病死亡的DALY损失,YLD为疾病的残疾DALY损失
应用
第五节 人体营养状况评价及发育水平评价
人体营养状况评价
体重和身高
理想体重 ideal weight
常用公式
实际体重在理想体重±10%范围内为正常,±10% -20%范围内为超重或瘦弱,±20%范围外为肥胖或极瘦
年龄别身高 height for age
应用于儿童
上臂围与皮褶厚度
其他测量指标
人体测量资料的各种评价指数
Kaup指数
用于衡量婴幼儿的体格营养状况。判断标准为:指数15 ~ 18为正常,>18为肥胖,< 15为消瘦。
Rohrer指数
用于评价学龄期儿童和青少年的体格发育状况。 判断标准为:Rohrer指数> 156为过度肥胖,140 ~ 156为肥胖,110 ~ 139为中等,92 ~ 109为瘦弱,<92为过度瘦弱。
Vervaeck指数
用于衡量青年的体格发育情况
人体脂肪含量测定
生长发育评价
形态指标
机能指标
素质指标
心理指标
第六节 基本概念辨析
I. 发病率、时点患病率和时期患病率
发病率是指观察期内,可能发生某病的人群中新发病例的频率,其观察期多为年、月、日等,急性常见病多计算发病率
时点患病率反映在检查或调查时点一定人群中某病的现患情况(包括该病的新旧病例数)。观察时点在理论上是无长度的,但实际上观察时间不宜过长,一般不超过一个月。
时期患病率反映在观察期间一定人群中存在或流行某病的频度,包括观察期间的新发病例和现患病例数。常为慢性病的统计指标,但资料收集比较困难
II. 疾病统计的观察单位"病人"和"病例”
一个人每次患病都可作为一个病例。以病例为单位的疾病统计,可研究居民各种疾病的频度、疾病的种类及疾病的变动,以获得居民患病的基本规律
病人是指一个有病的人。在观察期间内,观察对象患有疾病即算作一个病人,不管其患病的种类及患病次数的多少。以病人为单位的疾病统计,在一定程度上反映居民的患病频度,可找出具体的患病人群,便于开展对病人个人的防治工作
III. 病死率和死亡率
某病病死率
某病病死率表示在规定的观察期内,某病患者中因该病而死亡的频率
反映疾病的严重程度的指标
用病死率进行比较时应注意内部构成不同的影响
公式
某病死亡率
某病死亡率表示在规定的观察期内,人群中因某病而死亡的频率
反映不同地区或年代人群中某种疾病的死亡水平
公式
一定条件下,某病死亡率=某病病死率*某病发病率
IV. 总和生育率与终生生育率
总和生育率指所有年龄别的生育率总和,反映平均一个妇女按当年的年龄别生育率度过育龄期所生育的孩子总数。总和生育率是用来模拟终生生育率的,是变动的,可受政策等因素影响。 终生生育率指某个年龄组妇女一生平均生育孩子的总数
V. 期望寿命与平均死亡年龄
期望寿命是年龄x岁以后年龄别死亡率的综合反映。期望寿命不受实际人口年龄构成的影响,同时又能综合反映人口的死亡水平,所以不同地区、不同时期的期望寿命可以直接比较。 平均死亡年龄指每年死亡人口的平均年龄,它受到出生率及人口的年龄构成的影响,故在不同地区算得的结果不能直接比较。
VI. 0岁组的期望寿命与1岁组期望寿命的关系
0岁组的预期寿命简称期望寿命,它是各年龄组死亡率的综合反映,任何一个年龄组的死亡水平发生变化,都会引起期望寿命的改变,但婴儿死亡率对期望寿命的影响更为明显。 一般来说,随着年龄的增长,预期寿命应逐渐下降,0岁组的期望寿命应高于1岁组期望寿命,但是当婴儿死亡率较高时,有可能会出现0岁组的期望寿命低于1岁组期望寿命的现象。
VII. 0岁组死亡率和婴儿死亡率
计算0岁组死亡率和婴儿死亡率的分母不同,前者采用0岁组人口数,后者采用某年活产总数。婴儿死亡率不受人口构成的影响,比较稳定,不同地区、不同时期可以比较,计算期望寿 命时用作。岁组死亡概率的估计值。