导图社区 卫生统计学 赵耐青版-下:适用于考研卫生综合353及761,综合分析题汇编详解、典型计算题汇总、全书公式整理及相关示例
这是一篇关于卫生统计学 赵耐青版-下的思维导图,主要内容有秩和检验有哪些类型/秩和检验家族、综合分析题汇编、考点汇编、公式及相关示例等。
编辑于2022-12-25 22:18:34 四川省出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。 风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
《别人不说,你一定要懂的人情世故(精华读本)》的特点在于通俗易懂,实用有效,没有空洞地讲大道理,一切都从实际的生活出发。通过对生动有趣的生活事例的讲述,对人性与心理进行了详细深刻的分析,从而阐述了实用有效的人情世故哲学。人情世故并不是洪水猛兽,而是有助于我们建立和谐人际关系和美好生活的一门实学。正如南怀瑾先生所说的:“人情世故不是简单的圆滑处世,不是假意的虚伪逢迎,不是单纯地屈服于现实,而是真正懂得生活的意义,安详地走完自己的人生。”
职场竞争激烈,一场成功的面试就像打仗一样,从面试前到面试中,再到面试后,都要做好关键动作,才能胜利! 本书以作者自身职场成功的经营和发展思维、方法、体系为基础,结合10余年互联网行业职场经验、近2年教练式咨询经历,首次吐露高薪人才赢得面试成功的技术和方法。 区别于市面上的其他图书,本书力求以极简的思维解析高薪Offer面试中的关键动作,将从心态、动机、准备、策略、战术、技巧、问答7个维度,以高薪Offer面试的视角,跟读者分享面试的实操心得与方法。
社区模板帮助中心,点此进入>>
出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。 风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
《别人不说,你一定要懂的人情世故(精华读本)》的特点在于通俗易懂,实用有效,没有空洞地讲大道理,一切都从实际的生活出发。通过对生动有趣的生活事例的讲述,对人性与心理进行了详细深刻的分析,从而阐述了实用有效的人情世故哲学。人情世故并不是洪水猛兽,而是有助于我们建立和谐人际关系和美好生活的一门实学。正如南怀瑾先生所说的:“人情世故不是简单的圆滑处世,不是假意的虚伪逢迎,不是单纯地屈服于现实,而是真正懂得生活的意义,安详地走完自己的人生。”
职场竞争激烈,一场成功的面试就像打仗一样,从面试前到面试中,再到面试后,都要做好关键动作,才能胜利! 本书以作者自身职场成功的经营和发展思维、方法、体系为基础,结合10余年互联网行业职场经验、近2年教练式咨询经历,首次吐露高薪人才赢得面试成功的技术和方法。 区别于市面上的其他图书,本书力求以极简的思维解析高薪Offer面试中的关键动作,将从心态、动机、准备、策略、战术、技巧、问答7个维度,以高薪Offer面试的视角,跟读者分享面试的实操心得与方法。
中心主题
秩和检验有哪些类型/秩和检验家族
单样本秩和检验:Wilcoxon Signed Rank Test
两独立样本:
Wilcoxon Rank Sum Test
又称为Wilcoxon-Mann-Whitney Test
配对样本:
Wilcoxon Signed Rank Test 和单样本相同的方法
Fisher Sign Test
多组独立样本:
Kruskal-Wallis Test——统计量H
随机区组设计:
Friedman test——统计量M
等级资料
两样本
Wilcoxon-Mann-Whitney Test
多样本
K-W
相关分析
Spearman等级相关
多组处理效应中的两两比较
Nemenyi
综合分析题汇编
专题一 集中趋势、离散趋势指标的选取与计算
第一节 知识复现
集中趋势
离散趋势
描述指标
第二节 破题思路
明确题干要求
要求集中还是离散趋势,用哪些指标
确定计算公式
正确计算
代入正确数值计算
第三节 模板总结
第一步:判断题目要计算的指标
话术
数据为XX分布,由题中可知/根据数据特征需要计算…指标描述集中/离散趋势
具体应用
集中趋势常用指标
算术均数
均数对于特大或特小的观测值十分敏感。故均数主要适用于描述不含极端值的对称分布变最的平均水平,尤适用于正态分布
中位数
中位数广泛应用于对称分布和偏态分布数据平均水平的描述。尤其适用于数据中有极端值、不确定值、数据呈偏态分布或分布形态未知的情况
几何均数
常用于描述存在少数偏大的极端值的正偏态分布或观测值之间呈倍数关系或近似倍数关系数据的集中位置,如抗体滴度、血清凝集效价等
离散趋势常用指标
极差
是所有观测值中最大值与最小值的差,也称全距。极差越大说明数据变异程度越大,或者说数据越离散。可用来反映传染病、食物中毒的最短和最长潜伏期等
四分位数间距
指将原始观察值由小到大顺序排列后,位于中间一半数据的极差。即IQR=P75-P25,适用于各种分布,特别是偏峰分布,分布不明、以及分布一端或两端无确定数值的资料
方差、标准差
适用于资料服从对称分布,特别是正态分布的数据
变异系数
常用于比较不同单位的变量、同一单位但均数相差悬殊的变量的变异程度
第二步:回忆相关公式
话术
该指标的计算公式为:...
具体应用
集中趋势常用指标公式
算术均数
①直接法
Xbar=∑Xi/n
这里的Xi是每个观察值
②频率表法
Xbar=∑fiXi/∑fi
这里的Xi是第i个组段组中值(无原始资料无具体观察值
fi为i组段中有多少个观察值位于该组段,fiXi为该组段观察值之和的近似
中位数
①直接法
M=X(n+1/2),n奇
M=(X(n/2)+X(n/2+1))/2,n偶
②频率表法
几何均数
G=^n√X1X2··Xn
G=lg(-1)(∑lgXi/n)
G=lg(-1)(∑fi·lgXi/∑fi)
百分位数
Px=1/2(X(nx%)+X(nx%+1)),nx%整数
Px=X(nx%+1)),nx%非整数
极差
R=Xmax-Xmin
四分位数范围
IQR=(P25,P75)
方差、标准差
S²=∑(Xi-Xbar)²/n-1
变异系数
CV=S/Xbar
第四节 实例分析
...该老年居民体检的一系列生化指标不呈对称分布,以下是此次调查中所得到的部分老年男性居民空腹血糖值(mmol/L): 4.53、4.54、4.69、4.76, 4.92、4.94、5.10、5.13、5.15、5.18、5.30、5.37、5.64、5.80、6.34、14.41.请问,如何描述该生化指标的分布特征,并计算结果
中位数与百分位数计算不够熟练
数据为连续定量非对称分布数据,用中位数描述集中趋势,四分位数间距描述离散趋势
中位数和四分位数间距指标计算公式为,代入得;作答
专题二 相对数应用常见问题
第一节 知识复现
使用相对数时的注意事项
一、 计算相对数时应有足够的观察单位数
二、 分析时不能以构成比代替率
三、 正确计算合计率或平均率
四、 注意相对数的可比性
五、 样本率或构成比的比较应做假设检验
第二节 破题思路
题干数据特征:题干一般涉及构成比、率
明确题干要求:题干一般设问“以上结论/说话是否正确”
答题思路
错误原因一般为相对数5个注意事项中的1-2个
需要答题人做到题目和注意事项的一一匹配
第三节 模板总结
判断数据特征,数据量是否过小?
万能话术
计算相对数时应有足够的观察单位数。
具体应用
案例中计算相对数时观察单位数太少,从统计学角度看,由于观察单位数太少,任何偶然的因素都会造成结果的不稳定,无论哪种结果发生,都无法确信结果的可靠性。因此, 在观察例数较少时,最好用绝对数表示。若必须用率表示, 则应列出总体率的可信区间。
题干给出构成比数据,问XX是否是最严重的?
万能话术
分析时不能以构成比代替率
具体应用
构成比表示事物内部各组成部分的频数所占的比重和分布,率反映事物发生的强度与频率。构成比说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小
两年或者三年的构成比资料比较,问XX率是否上升/下降?
万能话术
以构成比的动态分析代替率的动态分析的错误
具体应用
因为XX年与XX年相比,各类型发病的人数都在增加,若反映疾病发病强度的变化,应对XX年与XX年疾病的发病率进行比较
给出两组数据,计算合并率或平均率?
万能话术
正确计算合计率或平均率
具体应用
对分组资料计算合计率时,不能简单地把各组率取平均而应分别将分子和分母合计,再求出合计率
两组数据进行对比,两组数据内部也有分层数据
万能话术
相对数的比较应注意其可比性
具体应用
由于影响相对数的混杂因素很多,因此要比较两个或多个相对数时,要注意影响因素要尽可能一致或接近。可按XXX分层分析,或通过计算标准化病死率进行比较
通过样本数据系总体数据进行统计推断
万能话术
样本率或样本构成比的比较应作假设检验
具体应用
由于样本率或样本构成比存在抽样误差,如果通过样本推断总体率或总体构成比有无差异,不能凭样本率或样本构成的差别作结论,而必须进行差别的假设检验。
第四节 实例分析
某人用自行研制的中药治疗3例乙型病毒性肝炎病人,如果2人达到临床治愈的标准,该方法的治愈率为67%.请问“使用自行研制的中药治疗的治愈率为67%”的结论是否正确?
查找问题所在:该题干计算的是相对数(阳性率)(构成比),但其观察例数过少;不如用绝对数衡量
作答:
错误。计算相对数时应有足够的观察单位数。案例中计算相对数时观察单位教太少,从统计学角度看,由于观察单位数太少,任何偶然的因素都会造成结果的不稳定,无论哪种结果发生都无法确信结果的可靠性。因此,在观察例数较少时,最好用维对数表示。若必须用率表示,则应列出总体率的可信区间
计算各科室的死亡构成比,结果见下表,试问:能否据此认为外科病人的病死情况最严重?为什么?
题干解读
数据特征:(4)为构成比,(5)为率
题干要求:XX是否是最严重的?
答题思路:分析时不能以构成比代替率
解析作答
错误。分析时不能以构成比代替率.构成比表示事物内部各组成部分的频数所占的比重和分布,率反映事物发生的强度与频率。构成比说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小、表中第(4)列的百分比,表示在81个死亡病例中各科室所占的比重。因为外科的死亡人数最多,其死亡构成比最大,但这并不说明外科病人的病死情况最严重.如要比 较各科室中哪一科室的病死情况严重,应计算各科室的病死率这一频率指标,即用第(3)列的病死 人数除以第(2)列的病人数得到第(5)列的病死率。由第(5)列可知,肿瘤科病人的病死率最高
根据以下表格中的数据,我们可以认为2005年与2000年相比,呼吸系统疾病的构成比明显下降,而循环系统疾病、恶性肿瘤的构成比均有所上升,试问:能否据此认为呼吸系统疾病发病下降,循环系统疾病、恶性肿瘤发病上升?为什么?
题干解读
题干数据特征
题干的数据包括绝对数和构成比
明确题干要求
题干问“XX是否随着时间有下降或上升趋势
答题思路
锁定相对数5个注意事项中的“相对数分析时不能以构成比代替率",更加具体的说法为“不能以构成比的动态分析代替率的动态分析
解析作答
错误。如果据此作出呼吸系统疾病发病下降,循环系统疾病、恶性肿瘤发病上升的结论, 就犯了以构成比的动态分析代替率的动态分析的错误。因为2005年与2000年相比,各类型慢性疾病发病的人数都在增加,若要反映各类型慢性疾病发病强度的变化,应对2000年和2005年各类型慢性疾病的发病率进行比较
某医院消化内科上半年收治250例胃溃疡患者,治愈200例,治愈率为80.0%;下半年收治280例胃溃疡患者,治愈238例,治愈率为85.0%.试问:能否据此认为该消化内科全年对胃溃疡的治愈率应该是(80%+85%)/2 = 82.5%。为什么?
题干解读
题干数据特征
题干的数据包括绝对数和率
明确题干要求
题干问“合并治愈率是否应该是XXX"
答题思路
锁定相对数5个注意事项中的“正确计算合计率或平均率"
解析作答
错误。正确计算合计率或平均率。对分组资料计算合计率时,不能简单地把各组率取平均数,而应分别将分子和分母合计,再求出合计率。该消化内科全年对胃溃疡的治愈率应该是(200+238)/(250+280)*100%= 82.6%
两种疗法治疗某病的病死率如表所示,新疗法病死率低于一般疗法,则新疗法优于一般疗法。为什么?
错误。相对数的比较应注意其可比性。由于影响相对数的混杂因素很多,因此要比较两个或多个相对数时,要注意影响因素要尽可能地一致或接近。如果只比较合计病死率,似乎新疗法优于一般疗法,但当分别考察普通型病例和重型病例时,两种疗法的病死率是相同的。其原因在于:两种疗法治疗对象的病型构成不同,新疗法组普通型病例多而重型病例少,一般疗法组却是普通型病例少而重型病例多。因此要正确比较两种疗法的病死率,可按病情轻重分层分析,或通过计算标准化病死率进行比较。
某地在流感流行期间实验某药对流感预防效果的资料如下,用药组发病率为14%,对照组(未服用预防药发病率)为25%,是否可以认为用药组发病率低于对照组发病率,为什么?
错误。样本率或样本构成比的比较应作假设检验。由于样本率或样本构成比存在抽样误差,如果通过样本推断总体率或总体构成比有无差异,不能凭样本率或样本构成的差别作结论,而必须进行差别的假设检验。如果假设检验结果有显著性意义,可认为两组的差异是由于药物的药效造成,说明预防药有一定的预防效果。
专题三 定量变量的统计推断方法选择
第一节 知识复现
第二节 破题思路
确定研究设计类型
完全随机、配对、随机区组、析因、重复测量?
判断资料类型
定量资料
分类资料
无序分类资料、有序分类资料
确定对比组数
单组设计、两组比较
t检验、Z检验、WilCoXOn秩和检验、t'检验、WiICOXon秩和检验;四格表检验
多组比较
F检验、RXC交叉表检验、KrUSkal·WaIliS H秩和检验
第三节 模板步骤
确定研究设计类型
话术
该研究设计类型为...
具体应用
完全随机
直接分组一步到位
配对设计
组对子
随机区组
两次分组,两步到位
交叉设计
交叉,顺序颠倒?
析因设计
看研究目的是否探讨联合交互作用
重复测量设计
同一受试对象在不同时间点进行数据的收集
判断资料类型&确定对比组数&选正确公式
话术
该资料为..设计资料,该设计为单组/两组/多组比较,选用...检验,公式为
具体应用
数据特征
正态且方差齐
单组设计
样本与总体均数比较的t检验
完全随机设计
两组:两独立样本t检验
多组:完全随机设计的方差分析
配对或配伍设计
两组:配对t
多组:随机区组设计的方差分析
非正态和/或方差不齐
单组设计
Wilcoxon符号秩和检验
完全随机设计
两组:成组t'、Wilcoxon秩和
多组:Kruskal-Wallis H秩和检验
配对或配伍设计
两组:Wilcoxon符号秩和检验
多组:Friedman 秩和
等级资料
完全随机设计
两组:Wilcoxon秩和
多组:Kruskal-Wallis H秩和检验
配对或配伍设计
两组:Wilcoxon符号秩和检验
第四节 实例分析
某医院欲研充新药与常规药物两种退烧药的疗效,将20名发烧患者随机分为两组;分别接受受两种药物治疗,测得两组患者退烧后的温度。如下表。请回答:新药与常规药物两种部效有无差别?(请写出假设检验具体步骤,不需要计算具体结果
定量资料、成组设计、两组间比较——两独立样本t 但需确定正态和方差齐性
前答
由题可知,实验设计为完全随机设计,资料类型为定量资料,需进行两独立样本连续型定量资料的假设检验。
话不说满,未知满足条件不忙说用t检验
两独立样本连续型定量资料的假设检验可考虑用t检验、秩和检验、Z检验,本组资料样本量较小、从检验效能角度优先选择成组t检验,但t检验需满足独立、正态、方差齐三个条件,一般来说,资料的独立性是由抽样方式决定的,因此主要考察资料的正态性和方差齐性
天衣无缝
判断资料是否服从正态分布,可进行正态性检验
检验假设为:
H0:该资料服从正态分布
H1:该资料不服从正态分布
α=0.05
正态性检验方法很多,一般选用Shapiro-Wilk正态性检验(W检验)、D检验、矩法、拟合优度检验
确定P值,作出结论
P>α,按α=0.05的水准不拒绝H0,资料服从正态分布
P≤α,按α=0.05的水准拒绝H0,资料不服从正态分布
判断资料对应的总体方差是否相等,可进行方差齐性检验
检验假设为:
H0:σ1²=σ2²,即两总体方差相等
H1:σ1²≠σ2²,即两总体方差不等
α=0.05
本题是两组方差的比较,且不确定原始数据是否是正态分布,故选用Levene检验
确定P值,作出结论
P>α,按α=0.05的水准不拒绝H0,即认为两总体方差相等
当P≤a,按a=0.05的水准拒绝H0,两总体方差不等
对两独立样本定量资料进行假设检验
当资料满足正态性,方差齐性时,选用t检验;如果两独立样本总体方差不齐,但两组资料服从正态分布,或样本量较大,用t'检验;如果资料不满足方差齐性、正态分布的条件,可用两样本资料的Wilcoxon秩和检验
两样本t检验详细步骤示例
多组均数比较是否可以直接使用t检验进行两两比较,如果不可以,如果想要知道每两个样本均数所代表的总体均数是否相同,应该如何做?
不可以直接使用t检验进行两两比较。原因如下
(1) 多个均数间的比较用t检验或Z检验会增大实际犯第I类错误的概率,用方差分析比较多个 样本均数,可有效地控制犯第I类错误的概率。 (2) 如需要进行3个均数的比较,采用t检验需要进行3次两两比较的t检验,设a=0.05,每次t检验不犯第I类错误的概率为0.95,那么3次均不犯第I类错误的概率则为0.95³=0.857,而完成这 3次t检验,犯第I类错误的概率就变成了 1-0.857=0.143,远远超过了事先规定的0.05水准。 (3) 这说明使用多次t检验进行多个均数的比较会增大实际发生第I类错误的概率,因此t检验 不能直接用于多个均数的比较
多个总体均数进行比较时,首先要考虑资料的设计类型,可以分为完全随机设计以及随机区组设计
(1)如果是完全随机设计资料 ①若资料满足正态、方差齐的前提条件,可以选择完全随机设计的方差分析进行比较。 ②若料呈非正态分布和/或方差不齐,可以选择K-W H秩和检验进行比较 (2) 如果是随机区组设计资料。 ①若处理组间、区组间数据满足正态性、方差齐性,可以选择随机区组设计的方差分析进行比较。 ②若处理组间、区组间数据不满足正态性、方差齐性,可以选择数据转换方法或Friedman M检验进行比较。 (3) 当方差分析结果为P<0.05时,若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,可选用SNK-q检验、Dunnet-t检验、Bonferroni法进行假设检验。
真题考察
【武汉大学353-2013简答】简述方差分析的基本思想,指出不满足方差分析应用条件的备选统计学分析方法
【武汉大学353-2016简答】简述方差分析的基本思想,指出不满足方差分析应用条件的备选统计学分析
真就原题?
【吉林大学656-2017简答】现有一实验设计,设计中共有三组,两个药物组,一个对照组,问是否可以用两独立样本的t检验对此三组数据进行两两检验?如果不行,请回答为什么不行,应该如何检验?
对于完全随机设计定量资料可以如何分析,其应用条件是什么?
设计类型和资料类型已定,完全随机+定量 只剩下组数。 单组:单样本t、秩和、Z 两组:t、秩和、Z 多组:方差分析、H检验
1、 对于单样本定量资料
当样本量很大,使用Z检验
样本数据x服从正态分布或样本量n足够大,可以选用t检验
2、对于两样本完全随机设计定量资料
参数检验包括t检验和Z检验,非参数检验则为WilOCoXon检验
如果样本量很大,则选用Z
如两样本数据随机且独立,均服从正态分布且两样本对应的两总体方差相等,则选用t检验
如两样本数据随机且独立,均服从正态分布,但两样本对应的两总体方不等,则选用t'检验
如资料为偏态分布或者分布不明等,选用WiioCOXon检验
3、 对于多样本完全随机设计定量资料
(1) 若资料满足正态、方差齐的前提条件,可以选择完全随机设计的方差分析进行比较
(2) 若资料对呈非正态分布和/或方差不齐,可以选择KW H秩和检验进行比较
真题考察
【厦门大学353-2022简答】完全随机设计资料可进行什么分析,及其条件是什么?
请简述多个样本定量资料的总体均数比较统计学分析思路?
首先要考虑资料的设计类型,可以分为完全随机设计以及随机区组设计
1、 完全随机设计资料·
(1) 若资料满足正态、方差齐的前提条件,可以选择完全随机设计的方差分析进行比较
(2) 若资料对呈非正态分布和/或方差不齐,可以选择KW H秩和检验进行比较
2、 随机区组设计资料
(1) 若处理组间、区组间数据满足正态性、方差齐性,可以选择随机区组设计的方差分析讲行比较
(2) 若处理组间、区组间数据不满足正态性、方差齐性,可以选择数盛换方法或Friedman M检验进行比较
真题考察
【吉林大学656-2015简答】三组各有20例的定量资料,问分析的思路?
【东南大学724-2018简答】比较四种血型里某个蛋白含量是否有差异,选择统计方法分析及理由
专题四 分类变量的统计推断方法选择
第一节 知识复现
第二节 破题思路
确定研究设计类型
完全随机设计、配对设计、随机区组设计、析因设计、重复测量设计
判断资料类型
定量资料
分类资料
确定对比组数
单组设计、两组比较
多组比较
第三节 模板总结
确定研究设计类型
话术
该研究设计类型为...
具体应用
完全随机
直接分组一步到位
配对设计
组对子
随机区组
两次分组,两步到位
交叉设计
交叉,顺序颠倒?
析因设计
看研究目的是否探讨联合交互作用
重复测量设计
同一受试对象在不同时间点进行数据的收集
判断资料类型&确定对比组数&选正确公式
话术
该资料为..设计资料,该设计为单组/两组/多组比较,选用...检验,公式为
具体应用
数据特征
计数资料
单组设计
二项分布直接计算概率法、正态近似法(Z检验)
完全随机设计
两组:独立四格表χ²检验、Fisher确切概率法
多组:R×C交叉表χ²检验、Fisher确切概率法
配对或配伍设计
两组:配对四格表χ²检验
多组:配对R×R列联表χ²检验
等级资料
完全随机设计
两组:Wilcoxon秩和
多组:Kruskal-Wallis H秩和检验
配对或配伍设计
两组:Wilcoxon符号秩和检验
多组:配对R×R列联表χ²检验
第四节 实例分析
论述对普通四格表资料进行差异性分析时,应如何选择检验方法及检验公式?
(一) 首先应分清是完全随机资料还是配对设计资料
(二) 对于独立四格表资料,应根据各格的理论值T和总例数n的大小选择不同的χ²计算公式
n≥40且任意一格T都≥5:
n≥40但有一格T:1≤T≤5
n≤40或任意一格T<1
(三)对于配对设计的四格表资料,根据b、c的大小选择不同的计算公式
b+c≥40
b+c<40
【真题考察】
【厦门大学353-2021简答】四格表的分析方法有哪些?其应用条件各是什么?
【山东大学353-2012简答】两样本率比较的假设检验,常用的统计学方法有哪些?应如何选择
某医院用两种方法对己确诊的50名乳腺癌患者进行检查,结果如表所示 (1) 该研究属于何种设计类型?该资料属于何种类型?(2) 两种检查方法是否有关联?
有否关联即二者阳性阴性判断是否一致 即看两个样本率是否源于同个总体率
1、 该研究属于配对设计,该资料属于配对四格表资料
设计类型:配对设计
资料类型:无序分类资料四格表形式
2、 由题意得,采取关联性检验的方法判断两种检查方法是否有关联
(1)建立假设检验,确定检验水准
H0:甲法与乙法检查结果之间互相独立
H1:甲法与乙法检查结果之间存在关联
α=0.05
(2) 计算检验统计量
(3) 确定P值,作出推断
多个率或多个频率分布比较的χ²检验当结论为拒绝H0时,是否意味着任意两组之间有差别?如果不是,如何判断两组之间存在差别?
多个率或多个频率分布比较的χ²检验,当结论为拒绝H0时,仅表示多组之间是有差别的,即至少有两组的总体率或频率分布是不同的,但并不意味着任意两组之间有差别。若需明确究竟是哪两组之间存在差别,可做率的多重比较,即进行χ²分割,将R×C表分割为若干个小的四格表进行检验。但在具体分割过程中,尚需根据比较的次数合理地修正检验水准α,否则将人为地增大犯第I类错误的概率。
【华科353-2016论述】医院研究生研究三种疗法对治疗慢性肩周炎的效果如何。每种疗法分别选择在该医院就诊的200名患者进行治疗。该研究生按a=0.05的检验水准计算出卡方值后拒绝H0,得出三种疗法有差异。然后按a=0.05检验水准进行两两比较,得出A与B之间有差异,而 A与C、B与C之间无差异,试问他的分析正确吗?
用卡方检验推断两个样本率、多个样本率是否来自同一总体时,对理论频数分别有何要求?若不满足条件如何处理?
(一)检验两个样本率是否来自同一总体时,根据各格的理论值T和总例数n的大小选择不同的计算公式
同上
(二)多个样本率是否来自同一总体时,R×C交叉表χ²检验的适用条件
1、一般要求其理论频数不能过小,不能有1/5以上格子的理论频数1<T<5,也不允许有一个格子的理论频数T<1,否则结果容易产生偏性
2、 不能进行卡方检验时的解决办法:若理论频数过小,或有1/5以上格子理论频数小于5时, 应考虑增加样本量;结合专业知识对行或列进行合并;若出现一个格子的理论频数小于1,应采用 FiSher确切概率法
【山东大学353-2014简答】用卡方检验推断两个样本率、多个样本率是否来自同一总体时,对理论频数分别有何要求?若不满足条件如何处理?
配对设计资料分析的方法有哪些?其应用条件分别什么?
配对t检验
资料为定量资料,当检验目的为差异性分析
样本差值随机,服从正态分布或样本量(对子数)足够大,以确保样本差值均数d服从或近似服从正态分布,则使用配对t检验
McNemar法
若资料为两分类配对设计资料,当检验目的为差异性分析,使用McNemar法,根据bc的大小选择不同的计算公式
χ²检验
若资料为两分类配对设计资料,当检验目的为独立性分析,使用χ²,根据各格理论值T和总例数n的大小选择不同的计算公式
非参数检验Wilcoxon符合秩和检验
适用于
总体分布非正态或分布形式未知的定资料
等级资料
一端或两端无确定数值的资料,只有一个下限或上限,而没有具体数值
各组数据离散程度相差悬殊的资料,即总体方差不齐的资料
【真题在线】
【厦门大学353-2013简冬】配对设计资料分析的方法有弊些?其应用条件各是什么·
【厦门大学353-2018简磐】配对设计资料都有什么分析方法?应用条件都是什么?
考点汇编
第一章 绪论
考情分析
第一节统计学中的几个基本概念——常考名词解释,需要牢
第二节医学研究中的统计问题和设计问题——简单了解
第三节卫生统计学方法与数据统计分析——简单了解
第四节基本概念辨析——有助于知识点的理解,要仔细阅读
第五节小结——每章知识点的总结归纳
考点1:统计学基本概念
命题角度1:统计学与生物统计学的概念
Statistics
统计学:是一门研究数据收集、整理、分析、推断等的学科,主要包括两部分内容: ①参与随机现象研究的设计、观察(或测量)和资料的收集,并初步处理一些与统计学相关的问题或提出建议 ②根据概率论和数理统计学原理和方法对收集的资料进行统计分析并做出统计推断或统计预测等。
Biostatistics
生物统计学:国际统计学界通常把生命科学实验研究、基础医学研究、临床医学研究和预防医学研究中的统计学内容统称为生物统计学。由于各研究领域的侧重点不同,我国统计界通常把生命科学实验研究中的统计学内容称为生物统计学,把基础医学和临床医学研究中的统计学内容称为医学统计学,把预防医学研究中的统计学内容称为卫生统计学。
命题角度2:总体相关概念
Observation unit
观察单位:观察单位是根据研究目的所确定的最基本的抽样单位,观察单位亦称为个体(individual)
Population
总体:是根据研究目的所确定的所有同质个体某指标实际值的集合,分为有限总体和无限总体
[2018选择755】 [2021名解353】【2022名解755】
Finite population
有限总体:是指限定于特定的时间、空间范围内的总体,其个体总数是有限的。
Infinite population
无限总体:是指没有明确的时间和空间限制的总体,其个体总数是无限的。
命题角度3:同质与异质的概念
Homogeneous
同质:同质性是相对于研究问题和相应的主要观察指标的特点而言,通常指研究对象在一定范畴内的各种可能影响主要观察指标的其他因素处于相同或非常相似的情况,故有时把具有相同性质的观察单位简称为同质的。
Heterogeneous
异质的:研究对象在一定范畴内的各种可能影响主要观察指标的其他因素不处于相同,也不处于非常相似的情况,故把不具有相同或相似性质的观察单位简称为异质的。
命题角度4:抽样研究相关概念
Sample
样本:从一个研究问题所确定的研究对象中抽出一部分个体,对某些研究指标进行观察或测量,这些个体的研究指标的测量值构成的集合称为样本。
Sample size
样本量:样本中的个体总数称为样本量。
Parameter
总体参数:刻画总体特征的统计指标称为总体参数
Statistic
统计量:刻画样本特征的统计指标称为统计量
Individual variation
个体变异:指同质个体中同一观察指标的个体观察值之间的差异称为该观察指标的个体变异。
Sampling error
抽样误差:由于个体变异和随机抽样的原因,用样本统计量估计总体参数往往存在误差,称样本统计量和总体参数之间的差异为抽样误差。抽样误差同样可以表现为样本统计量与样本统计量之间的差异。由于个体变异普遍存在,所以抽样误差不可避免,但抽样误差是有规律的,是可以被认识和可控的,即可以通过增大样本量来减小抽样误差。
[2019判断353】 [2021 名解353】 [2021名解755】 [2022选择761】
Sampling distribution
抽样分布:样本统计量的概率分布称为抽样分布,即在同一总体中进行大量独立重复抽样可呈现样本统计量而动抽样分布。
【2011判断353】 [2015判断353】【2015 判断755】 (2021名解761】【2022名解761】
命题角度5:频率与概率相关概念
Random event
随机事件:在概率论中把结果具有随机性的观察或试验统称为随机试验,随机试验的每种可能的结果称为随机事件,简称事件,常用英文大写字母ABC表示随机事件
Frequency
频率:若用随机事件A发生表示观察到某个可能的结果,在n次随机试验中,随机事件A发生了m次,则称A发生的比例f=m/n为频率,m称为频数,显然,0≤f≤1。数理统计学可以证明:随着试验次数n的增大,频率f的波动幅度越来越小,当n→∞时,频率f趋向一个常数π,这个常数π就是随机事件A发生的概率。
Probability
概率:是刻画某随机事件发生的可能性大小的度量指标,其取值界于0-1之间。某随机事件发生的可能性越小,其概率越接近0,某随机事件发生的可能性越大,则越接近于1。
小概率事件
如果随机事件发生概率≤0.05,通常可以认为该事件是一个小概率事件,表示该事件在大多情况下不会发生,并且一般可以认为小概率事件在一次随机抽样中不会发生,这就是小概率事件原理。小概率事件原理是统计学检验的基础。
【2018判断353】【2018判断755】【2021选择755】
考点2:变量
命题角度1:变量相关概念
Variable
变量:亦称为观察指标,变量取值即为观察值(或测量值)或对应的观察结果,亦称为资料(Data)。根据变量取值的特征不同,可以分为连续型变量和离散型变量。
Continuous variable
连续型变量:可以在一个区间中任意取直的变量,即在忽略测量精度的情况下,连续型变量在理论上可取到区间中的任意一个值,并且通常含有测量单位,如身高等。
【2011选择353】
Discrete variable
离散型变量:变量的取值范围是有限个值或者作为一个数列。离散型变量的取值情况可以分为具有分类性质的资料和不具有分类性质的资料。
Measurement data
计量资料:观察连续型变量所得到的数据资料称为计量资料,如身高资料
Categorical variable
分类变量表示分类情况的离散型变量称为分类变量。
【2011选择353】
Categorical data
分类资料是指观察分类变量所得的资料,可分为二分类资料和多分类资料。
Dichotomous data
二分类资料:观察可能的结果只有两个,记录这种观察结果而动资料成为二分类资料。通常用变量取值为0和1对应两种可能的结果,所以这种变量称为0-1变量,相应其取值的资料称为0-1资料如性别。
Nominal data
无序多分类资料:可能的观察结果只有若干个,并且这种观察结果在背景意义上没有程度或等级的含义,如血型
Ordinal data
有序多分类资料::对于每个个体而言,可能的观察结果只是若干个中的一个, 若干个观察结果在研究背景意义上含有程度或等级上的差别,这种分类变量称为有序变量,而这种分类变量值的集合构成有序分类资料。
不具有分类性质的离散型资料
有些观察指标,例如白细胞计数、每个家庭中的子女个数, 其取值虽然是离散的,但不具有分类的性质,因此通常把这类观察指标的资料按特殊的计量资料处理
命题角度2:变量的类型、特点及举例
(1)变量根据取值特征不同可分为连续型变量与离散型变量。 ⑵离散型变量:变用的取值范围是有限个值或者为一个数列。离散型变量的取值情况可以分为具有分类性质的资料和不具有分类性质的资料,表示分类情况的离散型变量亦称分类变量。观察分类变量所得到的资料称为分类资料。分类资料可以分为二分类资料和多分类资料,而多分类资料又分成无序分类资料和有序分类资料,二分类资料如症状指标分为感染或未感染,无序多分类资料如血型可以⑦为A、B、AB和O型,有序多分类资料如病情指标分为无症状、轻度、中度和重度。有些 观察指标,例如白细胞计数、每个家庭中的子女个数,其取值虽然是离散的,但不具有分类的性质, 因此通常把这类观察指标的资料按特殊的计量资料处理。 (3)连续型变量:可以一个区间中任意取值的变量,即在忽略测量精度的情况下,连续型变量在理 论上可以取到区间中的任意一个值,并且通常含有测量单位。观察连续型变量所得到的数据资料称为计量资料。如身高变量就是连续型变量,身高资料为计量资料
[2018选择755】【2020问答353】【2021选择353】【2022选择3531
命题角度3:变量之间的转换方向及举例
(1) 资料的类型并不是一成不变的,可以根据研究目的的需要进行转化。一般而言,定拍:资料可以 转换为有序分类资料,有序分类资料可以转换为二分类资料,反之二分类济料不能转换为有序分类 一料,有序分类莅料也不能转化为定瞬资料。 (2)例如,血压值为定量变量,我们可以根据血压值分为:低血压、正常血压、轻度高血压、重度高血压和重度高血压,此时变重为有序变量(等级变量)」我们也可以将血压分为正常、不正常,此时为二分类变量
考点3:医学研究中的统计问题和设计问题
命题角度1:总体与样本实例辨析
(1) 总体是根据班宠且的所确定的所有回质宓某指标实际值的集合,样本是从一个研究问题所确 定的研究对象中抽出二fflik±佐,对某些研究指标进行观察或测量,这些个体的研究指标的测量值 构成的集合称为样本。 (2)例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2022 年全部正常成年男子的红细胞数就构成一个总体,从此总体中随机抽取2000人,分别测得其红细胞 数,组成样本。
[2015选择353】【2015判断755】
命题角度2:样本统计量与总体参数实例辨析
(1)某医生用某药治疗10例小儿支气管哮喘,治愈8例,结论为“该药对小儿支气管哮喘的治愈率为80%,值得推广”,请分析该结论。 ①该结论是错误的 。 ②首先 ,该研究设计没有设置对照组,且获得的结果仅为样本治愈率,不能反映该药的总体治愈室, 同时样本例数太少,导致的抽样误差较大。 (2)某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班 的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么? ①不能。 ②原因:从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本 的平均身高只是甲、乙两班所有同学平均身高的一个点估让值。即使是按随机化原则进行抽样,由 于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就做 出两总体均数孰高孰低的判断,而应通过统计分析,进行统计推断,才能做出推断。
提要1常见误差类型及解决办法【2018选择755】
公式及相关示例
定量资料统计描述
频数表
range,R=Xmax-Xmin
组距大致值=R/预计组段数
组段数多为8-15之间
class mid-value=lower limit+upper limit)/2
集中趋势
Xbar=∑Xi/n
这里的Xi是每个观察值
Xbar=∑fiXi/∑fi
这里的Xi是第i个组段组中值(无原始资料无具体观察值
fi为i组段中有多少个观察值位于该组段,fiXi为该组段观察值之和的近似
G=^n√X1X2··Xn
G=lg(-1)(∑lgXi/n)
G=lg(-1)(∑fi·lgXi/∑fi)
M=X(n+1/2),n奇
M=(X(n/2)+X(n/2+1))/2,n偶
Px=1/2(X(nx%)+X(nx%+1)),nx%整数
Px=X(nx%+1)),nx%非整数
离散程度
S²=∑(Xi-Xbar)²/n-1
R=Xmax-Xmin
IQR=(P25,P75)
CV=S/Xbar
分类资料统计描述
ratio=A/B
proportion=事物内部某组分观察单位数 / 事物内部各组成部分观察单位总数*100%
frequency=事件A发生的次数 / 事件A发生次数+事件A未发生次数
rate=该时期内发生某事件的观察单位数 / 某时期开始时暴露的观察单位数
incidence rate=发生某事件的观察单位数 / ∑(观察单位 x 观察时间)
累积发生率=1 -exp(-发生速率 x 该时期的时间长度)
常用概率分布
二项分布
P(X=x)=C(n,x)(π^x)*(1-π)^(n-x)
n是试验次数,x是指定事件发生的次数,π是指定事件在一次试验中发生的概率
X~B(n,π)
μ=nπ
σ²=nπ(1-π)
σ=√nπ(1-π)
Poisson分布
X~P(μ)
正态分布
X~N(μ,σ²)→Z~N(0,1)
Z=X-μ/σ→Z=X-Xbar/S
标准正态分布界值表中的概率值是(-∞,Z)取值的概率
参考值范围
抽样误差和抽样分布
Xbar~N(μ,σ²/n)
σxbar=σ/√n
Sxbar=S/√n
P~N(π,π(1-π)/n)
σp=√(π(1-π)/n)
Sp=√(P(1-P)/n)
Z~N(0,1)
Z=X-μ/σ
Z=Xbar-μ/σxbar
t~t(ν),ν=n-1
t=Xbar-μ/Sxbar
Z²=1/σ²∑(Xi-μ)²~χ²(n)
(n-1)S²/σ²=∑(Xi-Xbar)²/σ²~χ²(n-1)
(Xi-Xbar)²=(n-1)S²
F=(χ²(ν1)/ν1) / (χ²(ν2)/ν2)=(X1/ν1)/(X2/ν2)
前一个公式意在表示这两个随机变量X1、X2都服从χ²分布,一个是自由度为ν1的一个是ν2的χ²分布
将(n-1)S²/σ²~χ²(n-1)代入得F=S1²/S2²
S1、S2所对应得总体分布为正态分布N(μ1,σ2)和N(μ2,σ²),二者σ相等(方差齐)
Z²=(Xbar-μ/ (σ/√n))²→
t²=(Xbar-μ/ (S/√n))²→
t²=χ²(ν1)/1 / χ²(ν2)/n-1 →
t²~F(1,n-1)
所以两独立样本t检验和方差分析等价
参数估计
总体均数μ的CI
t~t(ν),(Xbar-tα/2,ν·Sxbar,Xbar+tα/2,ν·Sxbar)
t~N(0,1),(Xbar-Zα/2·Sxbar,Xbar+Zα/2·Sxbar)
n>100,t近似Z
均数差μ1-μ2的CI
t=((X1bar-X2bar)-(μ1-μ2))/S[x1bar-x2bar]
S[x1bar-x2bar]=√Sc²(1/n1+1/n2)
Sc²=((n1-1)S1²+(n2-1)S2²)/ n1+n2-2
合并方差为两样本方差得加权平均
t~t(ν),((X1bar-X2bar)-[tα/2,(n1+n2-2)]·S[x1bar-x2bar],(X1bar-X2bar)+[tα/2,(n1+n2-2)]·S[x1bar-x2bar]
t~N(0,1),((X1bar-X2bar)-Zα/2·S[x1bar-x2bar],(X1bar-X2bar)+Zα/2·S[x1bar-x2bar]
总体率π的CI
n(1-P)P>5时P~N(π,π(1-π)/n)
n较大,P和1-P均不太小时
P±Zα/2·Sp
n(1-P)P≤5时P不服从N(π,π(1-π)/n)
计算复杂,查表
Poisson总体计数μ的CI
用总体平均计数μ一区分连续资料的总体均数μ
X>50,单个样本计数,X~N(X,X)
(X-Zα/2·√X, X+Zα/2·√X)
X>50,多个样本计数,Xbar~N(Xbar,Xbar/n)
PlanA:X=∑Xi→
(X-Zα/2·√X, X+Zα/2·√X)→
CI/n
PlanB:Xbar=∑Xi/n→
(Xbar-Zα/2·√(Xbar/n), X+Zα/2·√(Xbar/n)
X≤50
Poisson分布μ的可信区间(附表9)
假设检验
假设检验不单只有统计量需要计算。 确定P值有时候不能查表也需要手动计算
方差齐性检验
F=S1²/S2²,ν1=n1-1,ν2=n2-1
Levene法
两独立定量资料
正态且方差齐
t=X1bar-X2bar/S[x1bar-x2bar],ν=n1+n2-2
S[x1bar-x2bar]=√Sc²(1/n1+1/n2)
Sc²=((n1-1)S1²+(n2-1)S2²)/ n1+n2-2
合并方差为两样本方差得加权平均
正态但方差不齐
方差不齐或非正态或分布未知或存在端点不确定值
T取样本量较小组T
n1≤10且n2-n1≤10:查表
n1>10且n2-n1>10:T~N(n1(N+1)/2),n1n2(N+1)/12)
较少的相同观察值同秩
较多的相同观察值同秩
非连续Poisson分布资料
两样本观察单位数相同时
Z=X1-X2/√(X1+X2)
两样本观察单位数不同时
Z=X1bar-X2bar / (√X1bar/n1+X2bar/n2)
多组独立定量资料
独立、方差齐且正态one-way ANOVA
F=MS组间/MS组内
MS=SS/ν
SS总
SS组间
SS组内
仅组内变异有快捷公式:∑(ni-1)Si²
都是离均差的平方和
方差分析多重比较
LSD-t test
t=X1bar-X2bar/S[x1bar-x2bar],ν=n1+n2-2
Bonferroni
不能同时满足独立、方差齐且正态-Kruskal-Wallis
一般公式
当存在较多相同秩次时,H可修正为Hc
样本量较大时用Nemenyi两两比较秩和检验的正态近似法
配伍区组设计资料
配对设计资料
独立,来自同分布总体且其差值服从正态的连续型资料
注意,不要求其原分布为正态,差值为正态即可
t=dbar-0 / Sd/√n→
t=dbar/Sdbar,ν=n-1
不满足上述任意条件的资料——Wilcoxon
T
编秩,求秩和:先根据差值的绝对值由小到大进行编秩,然后按差值的正负在秩次前加上正负号。若差值为0,舍去不计,同时总的对子数也相应减掉;若差值的绝对值相等,取其平均秩次。最后,分别求出正负秩次之和T+和T-
P
5≤n≤50时,查表
n>50时,正态近似法
T~N(μT,σT²)
μT = n(n + 1 )/4
σT = √(n +1)(2n +1)/24
Z=T-μT/σT
需连续性校正
无同秩次
Z=(|T-μT|-0.5)/ σT
有同秩次(不含差值0)
Z=(|T-μT|-0.5)/ √(σT²-0.5∑(tj³-tj)/24)
tj为第j个同秩次的个数
随机区组设计资料
独立、正态其方差齐——two-way ANOVA
F处理=MS处理/MS误差
F区组=MS区组/MS误差
MS处理=SS处理/k-1
k为处理组数
SS处理=b∑(Xjbar-Xbar)²
Xjbar是各处理组总和的指标平均值,是纵向的综合均数
MS区组=SS区组/b-1
b为区组数
SS区组=k∑(Xibar-Xbar)²
Xibar是各个区组内部的指标平均值,横向综合均数
SS误差=SS误差/(b-1)(k-1)
two-way ANOVA的进一步两两比较:LSD test
t=XAbar-XBbar / SdABbar,ν=ν误差
SdABbar=√(MS误差·(1/nA+1/nB))=√(2MS误差/n)
不满足ANOVA条件——Friedman test
编秩:在每一区组内将数据由小到大依次编秩,若有相同数据,则取平均秩次
k为处理组数,Ri为各处理组秩和(i = 1,2,···,k),Rbar为平均秩次
M=∑(Ri-Rbar)²,Rbar=∑Ri/k
P
kb未超出M界值表范围:查表
kb超出M界值表范围:近似χ²分布法
χ²=12/bk(k+1)·∑(Ri-0.5b(k+1))²
=12/bk(k+1)·∑Ri²-3b(k+1),ν=k-1
Friedman test的进一步两两比较:Bonferroni法
直线回归分析
直线回归方程
μY|X=a+βX
直线回归模型
Y = a+βX +ε
这里的Y相较于Y^和μY|X而言,是确定的
样本估计的回归方程
Y^=a+bX
Y^为Y的预测值,μY|X的估计值
样本估计的回归模型
Y= a+bX +ε^
残差ε^=Y-Y^
ε^叫残差
ε叫误差项
ε^为误差项ε的估计值
最小二乘法计算a和b
b=∑(X-Xbar)(Y-Ybar) / ∑(X-Xbar)²
→b=LXY / LXX
分子为X与Y的离均差乘积的和 分母为X的离均差平方和;
a=Ybar-b·Xbar
直线回归统计推断
决定系数计算
R²=SS回归/SS总=1-(SS残差/SS总)
SS总=∑(Y-Ybar)²
ν总=n-1
SS回归=∑(Y^-Ybar)²
ν回归=1
SS残差=∑(Y-Y^)²
ν残差=n-2
ν总=ν回归+ν残差
R²=r²
回归模型的假设检验
F=(SS回归/ν回归)/(SS残差/ν残差)
→F=MS回归/MS残差
回归系数的假设检验
tb=(b-0)/ Sb,ν=n-2
总体回归系数的区间估计
b±t0.05/2,ν·Sb
直线回归的统计应用
总体均数μY|X的区间估计
个体Y值的容许区间估计
线性相关分析
线性相关系数计算
r=∑(X-Xbar)(Y-Ybar) / √(∑(X-Xbar)²·∑(Y-Ybar)²)
→r=LXY / √LXX·LYY
线性相关系数的统计推断
相关系数的假设检验统计量
tr=(r-0)/Sr
Sr=√(1-r²)/(n-2),ν=n-2
相关系数的区间估计
估计可信区间前需先对相关系数(定性资料)进行变量变换,常用的是Z转换
CI:(Z-Zα/2 /√(n-3),Z+Zα/2 /√(n-3))
反变换后CI的上下限函数:
2μ Zρ
Spearman等级相关(X&Y不服从双变量正态时采用
Spearman等级相关系数的计算
rs=Lpq / √Lpp·Lqq
Lpp=∑(p-pbar)²
Lqq=∑(q-qbar)²
Lpq=(p-pbar)·(q-qbar)
p表示X的秩次,q表示Y的秩次
Spearman等级相关系数的假设检验
trs=rs-0 /Srs
无序分类资料统计分析
goodness-of-fit test
χ²=∑(A-T)²/T,ν=k-1-g
k为组数 g为以样本数据估计参数的个数(未知参数个数)
两独立样本四格表资料检验
n≥40,T≥5
两独立样本四格表资料χ²检验
四格表基本公式
基本公式展开式
四格表专用公式
ν=(R-1)(C-1)
n≥40,1≤T<5
两独立样本四格表资料校正χ²检验
基本公式校正式
四格表专用公式校正式
或用Fisher精确检验
n<40或T<1
只能用Fisher精确检验
多个独立样本的行x列表资料检验
基本公式展开式
配对四格表资料检验
配对四格表资料两种处理的差别分析
配对四格表资料两种处理效应的关联性分析
有序分类资料的统计分析
两独立样本有序资料的统计分析
分组变量为多分类有序资料,指标变量为两分类无序资料
可将分组变量视为无序,采用χ²检验
分组变量为两分类无序资料,指标变量为多分类有序资料
χ²将无法考虑分组变量不同水平下指标变量的等级关系
采用Wilcoxon秩和检验
T=Rmin
同秩矫正公式Zc=Z/√c
多个独立样本有序资料的统计分析
Kruskal-Wallis test
H
同秩校正Hc=H/c
Nemenyi法—多个样本两两比较
Z
有序分类资料的相关关系分析
Spearman等级相关系数rs
有序分类资料的线性趋势检验
χ²回归
χ²偏离回归
单样本与总体比较的统计分析
单样本分类资料与总体比较
样本率与总体率的比较
nP(1-P)>5
Z=P-π0 / √π0(1-π0)/n
nP(1-P)≤5
利用二项分布原理直接求出P值
(Poisson分布资料)平均事件发生数的比较
μ≥20
平均事件数Xbar=∑Xi/n
Z=Xbar-μ0 / √μ0/n
μ<20
按照Poisson分布原理直接求出P
单样本定量资料与总体比较
均数的比较
满足正态就one sample t-test
稍微偏离正态但n足够还是用t检验
不满足正态则用数据变化还是给他整成正态计算
中位数和百分位数的比较
Binomial test
Z=P-π0 / √π0(1-π0)/n
真题典型计算题汇总
答题模板
历年题一般没有大型计算,多为要求:写出步骤不用计算
先看实验设计类型,其次资料类型及相应分析方法条件是否满足
资料是否独立取决于抽样方式
根据资料得:(将题干已知数据命以字母符号:Xbar=10, n=10)
建立检验假设和检验水准
计算检验统计量
确定P值,做出推断
区间估计、参考值范围估计
熟悉但并未掌握
总体均数区间估计、参考值范围估计
理论
总体均数μ的CI
t~t(ν),(Xbar-tα/2,ν·Sxbar,Xbar+tα/2,ν·Sxbar)
t~N(0,1),(Xbar-Zα/2·Sxbar,Xbar+Zα/2·Sxbar)
n>100,t近似Z
例题
为了解成年人的安静脉搏水平,对某地区120名正常人进行了安静脉搏测量,得到均数69.54和标准差9.89。(1)求安静脉搏95%参考值范围 (2)求安静脉搏平均数的95%可信区间
n>100故t~N(0,1),(Xbar-Zα/2·Sxbar,Xbar+Zα/2·Sxbar)
【赵耐青p65例5-1】随机抽取某地25名正常成年男子,测得其血红蛋白含量(单位:g∕L)如下:146 139 153 138 137 125 142 134 133 122 137 128 140 137 139 128 131 158 138 151 147 144 151 117 118。该样本的均数为137.32 g∕L,标准差为10. 63 g∕L,求该地正常成年男子血红蛋白含量总体均数 的95%可信区间
CI的估计要回归到分布式,此处运用了均数那么最起码是对称或近似正态分布
最起码是对称和近似正态,保底可以用t分布来做,满足什么条件可以视为近似正态?——n>100
答案:132.9 ~ 141.7(g∕L)
【赵耐青p65例5-2】2005年某市120名7岁男童的身高Xbar = 123. 62( cm),标准差S =4. 75(cm),计算该市7岁男童总体均数90%的可信区间
同样给了均数,是用正态法做,现在看是用t分布还是Z分布来做
答案:122. 91 ~ 124. 33 cm
两均数之差的区间估计
理论
均数差μ1-μ2的CI
t=((X1bar-X2bar)-(μ1-μ2))/S[x1bar-x2bar]
S[x1bar-x2bar]=√Sc²(1/n1+1/n2)
Sc²=((n1-1)S1²+(n2-1)S2²)/ n1+n2-2
合并方差为两样本方差得加权平均
t~t(ν),((X1bar-X2bar)-[tα/2,(n1+n2-2)]·S[x1bar-x2bar],(X1bar-X2bar)+[tα/2,(n1+n2-2)]·S[x1bar-x2bar]
n<100
t~N(0,1),((X1bar-X2bar)-Zα/2·S[x1bar-x2bar],(X1bar-X2bar)+Zα/2·S[x1bar-x2bar]
n>100
例题
【赵耐青p66例5-3】为研究铅暴露对儿童智商(IQ)的影响,某项研究调查了78名铅暴露(其血铅水平≥40 μg∕100 ml)的6岁儿童,测得其平均IQ为88. 02,标准差为12.21;同时选择了78名铅非暴露的6岁儿童作为对照,测得其平均IQ为92. 89,标准差为13.34。试估计铅暴露的儿童智商 IQ的平均水平与铅非暴露儿童相差多少,并估计两个人群IQ的总体均数之差的95%可信区间
任务一:点估计两样本对应总体平均IQ差值
4.87
任务二:区间估计两总体差值CI
Sd不会算?
Sc²不会算?
注意t界值表ν不是n-1
该题注意单双侧
没有提暴露必然使IQ谁高情况下就选双侧
总体率π的区间估计
理论
总体率π的CI
n(1-P)P>5时P~N(π,π(1-π)/n)
n较大,P和1-P均不太小时
P±Zα/2·Sp
Sp=√p(1-p)/n
n(1-P)P≤5时P不服从N(π,π(1-π)/n)
计算复杂,查表
例题
【赵耐青p67例5-4】为研究肿瘤标志物癌胚抗原(CEA)对肺癌的灵敏度,随机抽取140例确诊为肺癌的患者,用CEA进行检测,结果呈阳性反应者共62人,试估计肺癌人群中CEA的阳性率
注意此处不再有均数了,指标也非定量指标而是分类率指标
可算得满足正态近似条件
P±Zα/2·Sp:(36. 1% ,52. 5% )
注意要么统一加百分号要么全部百分数表示
最好百分率表示
【赵耐青p67例5-5】
某医生用A药物治疗幽门螺杆菌感染者10人,其中9人转阴,试估计该药物治疗幽门螺杆菌感染者人群的转阴率
n(1-P)P明显<5
X≤n/2,附表7
X>n/2,n-X表
得到1-总体转阴率的95%可信区间,再用1减去这个95%可信区间的上下限,得到总体转阴性率的95%可信区间
在本题中n=10, X=9, n-X =1,查附表7,得到1-总体转阴率的95%可信区间为(0, 45%),由此得到总体转阴率的95%可信区间的上限为100%-0 = 100%,下限为100% -45%=55%。即基于95%可信度.可以推断该药物治疗幽门螺杆菌感染者人群的转阴率在(55%到 100%之间)
Poisson分布区间估计、参考值范围估计
理论
Poisson总体平均计数μ的区间估计
Poisson分布特殊在其仅有一个参数,总体方差=总体均数μ,为与连续型资料区别,称其总体均数为总体计数。
X>50,单个样本计数,X~N(X,X)
(X-Zα/2·√X, X+Zα/2·√X)
X>50,多个样本计数,Xbar~N(Xbar,Xbar/n)
PlanA:X=∑Xi→
(X-Zα/2·√X, X+Zα/2·√X)→
CI/n
PlanB:Xbar=∑Xi/n→
(Xbar-Zα/2·√(Xbar/n), X+Zα/2·√(Xbar/n)
X≤50
Poisson分布μ的可信区间(附表9)
样本计数X就是你把它抽的每个样本的样本量相加值
例题
【赵耐青p68例5-6】某市区某年12个月发生恶性交通事故的次数分别为:5,4,6,12,7,8,10,7,6,11,3,5。假设每个月发生恶性交通事故的次数服从Poisson分布,试估计该市平均每个月发生恶性交通事故的次数的95%可信区间
将1个月视为一个单位时间,因Poisson分布具有可加性,我们先计算12个单位时间内平均发生恶性交通事故的次数估计值及其95%可信区间
X=5+4+6 + 12+7+8+10+7+6 + 11 +3+5=84
X>50,多个样本计数,Xbar~N(Xbar,Xbar/n)
PlanA:X=∑Xi→
(X-Zα/2·√X, X+Zα/2·√X)→
CI/n
PlanB:Xbar=∑Xi/n→
(Xbar-Zα/2·√(Xbar/n), X+Zα/2·√(Xbar/n)
(84 -1. 96√84, 84 + 1.96√84= (66. 04,101.96)
对12个单位时间内平均发生恶性交通事故的次数估计值及其95%可信区间的上下限除以12,可以得到该市平均每月发生的恶性交通事故次数估计值为7次/月,其95%可信区间为 (5.5 -8.5)次/月
【赵耐青p69例5-7】从某纯净水生产厂家生产的矿泉水中随机取1L水样,检出3个大肠菌群。试估计该厂家生产的矿泉水中每L水中大肠杆菌数的95%可信区间
X≤50
Poisson分布μ的可信区间(附表9)
根据X=3,查附表9,得到95%可信区间为(0. 62,8.77),即平均每L自来水中大肠杆菌群 的95%可信区间为:0.62 -8.77个/L
Poisson分布CI估计和参考值范围估计一致??
率的标准化
例题
怎么看表里也应该是患病率而不是incidence
能否据此认为不饮酒易得高血压?
可见结论与常识相反,饮酒组各年龄组患病率均高于不饮酒组相应性别组,最后综合后饮酒组患病率反而低于不饮酒组;且可知两组中女性患病率均较高,女性易感,故综合的总患病率很大程度上受到了性别因素的影响,哪组女多男少,哪组综合患病率更高
此时进行两组率的比较需要消除两组内性别构成不同的影响,需标化后再比较
步骤:
分性别将饮酒与不饮酒人数相加为标准人口数
将各性别标准人口除以总标准人口数得到标准构成比
将标准构成比乘以患病率得到预期患病率
将同一组不同性别预期患病率求和,得到不同组别预期患病率
对消除了性别构成的不同组别的标准化率进行比较
两样本标准化率均为样本值,若要了解两样本标准化率之间差别是否具有统计学意义,应进行假设检验
直接标化法
思路
因为两地区年龄构成不同导致可比性较差,那我们就统一两地区的年龄构成
我们的目的是考虑研究因素对死亡率的影响,即本身最好就调查年龄构成一致的两地区;但实际上往往地区间年龄构成不同,故选取一个代表性参照人群来统一年龄构成比
最后得出的各组标化率大小取决于参照人群的年龄构成,但无论两地区标化率有多大,依旧可直接比较大小
基本步骤是:
保留两地区计算的各年龄组死亡率作为基础
现在相当于得知了特定地区特定年龄段的死亡率标准(样本估计值)
已知了两地区各年龄组的死亡率标准后就直接用参照人群各年龄组人数去与之相乘得到预期死亡数
将两地区各年龄组预期死亡数求和得到两地区总的期望死亡数,此时两地区期望死亡数是没有年龄构成差异的,且参照总人数也一致,可直接比较期望死亡数了
但规范是需要进一步计算两地区标化率P'=期望值/参照总人数
由于该题干是普查不存在抽样误差,故无需假设检验
间接标化法
思路
与直接标化法存在本质区别,间接标化法并没有统计两地区的年龄构成
这个办法压根没法比较欲研究的两人群率?
拿到参照人群各年龄组率的标准值去算年龄构成不同的两人群各年龄组的期望死亡数
参照人群死亡数与预期死亡数之比得到标化比SMR,SMR相当于知道了参照率和期望率(间接标化率)的比值,故可因此算出P'=P×SMR
两独立样本定量资料
成组设计t检验
例题
首先这是两组关于温度的连续定量资料,随机分组分别接受不同干预,属于随机成组设计,两独立样本定量资料比较首选t检验
其次对其进行正态性检验和方差齐性检验,同时满足才可进行t-test
正态性检验采用Shapiro-Wilk或偏度和峰度联合检验,公式较复杂一般软件计算(即不会考
方差齐性检验
同样先作检验假设:H0为两总体方差相等
之后计算F统计量F=S1²/S2²【其中S1²为较大的样本方差】,ν1=n1-1,ν2=n2-1
对比方差齐性检验附表中的F界值表以确定P值范围
试比较两种饮水条件下小鼠肝脏平均锌含量有无差别(默认满足t检验条件
首先已知两样本t检验统计量计算公式:
t=X1bar-X2bar/S[x1bar-x2bar],ν=n1+n2-2
S[x1bar-x2bar]=√Sc²(1/n1+1/n2)
Sc²=((n1-1)S1²+(n2-1)S2²)/ n1+n2-2
合并方差为两样本方差得加权平均
搬列已知的Xbar和S,算出统计量后拿ν找到相应t界值与t统计量对比得到P范围
不满足方差齐性则用t'
理论
例题
much too complicated
配对设计t检验
理论
t=dbar-0 / Sd/√n→
t=dbar/Sdbar,ν=n-1
例题
试计算手术前后血催乳素浓度有无差别?
每一个病例都对比了术前术后的催乳素浓度,可以看出是自身前后对照,每个病例术前术后的指标一同组成一个对子,为配对设计
催乳素浓度为连续定量资料,加上配对设计,优先选用配对t-test
配对t检验需满足哪些条件?
数据之间独立是数据的基本要求——对子之间独立
要用到t分布肯定都必须要是正态分布——正态性检验
但注意只需要差值服从正态,结合原公式t=X-μ/S理解
不要求方差齐性
不同于两独立样本分析,t=X-μ/S同时杂糅进了两个样本的信息,为了可加性和可计算性要求方差相齐以满足分子分母计算需要
配对通过两样本处理之后的差值来分析,其差值只相当于一个样本,可视为单样本t检验,只不过已知的总体参数这里为μ=0
又是自身对照,但不是时间上的前后对照,是同个体身上两个相同部位接受不同处理
考题不会直接给差值,判断配对设计+定量资料后判断独立性和正态性
计算对子差值d,对子独成一列新数据
由于H0是μd=0,相当于单样本t检验的μ=0,则若H0成立,每个对子d的累加应接近0,所以d会出现正负数。
统计量即将单样本t检验中的Xbar全部替换为dbar
Sdbar同样等价于Sxbar=Sx/√n
而Sd的计算也等价于Sx标准差计算
注意:通过S的变式计算更简单——Sx=√((∑X²-(∑X)²/n)/n-1)
此处应先计算
∑X²
∑X
成组t'和成组配对秩和计算估计不怎么考?——看了真题再考虑
单样本与总体比较
单样本定量资料与总体的比较
例题
测得某社区500名5-6岁儿童血压,收缩压均数95kpa,标准差为10.5,而全国同龄儿童血压均数98,是否可认为该社区儿童血压和全国同龄儿童血压有差异?并计算5-6岁儿童的95%CI
资料?只给了单样本的血压定量资料,给了一个作为对比的总体μ
满足正态,稍微偏离正态或不满足正态都全用t检验
大样本n>100则直接将其视为标准正态分布,用Z检验
Z=Xbar-μ/Sxbar≈6.38
95%CI计算由于满足大样本,直接用(Xbar-Zα/2·Sxbar,Xbar+Zα/2·Sxbar)
中位数和百分位数的比较?
样本率与总体率的比较
nP(1-P)>5
Z=P-π0 / √π0(1-π0)/n
nP(1-P)≤5
利用二项分布原理直接求出P值
样本数与总体数的比较
也即(Poisson分布资料)平均事件发生数的比较
μ≥20
平均事件数Xbar=∑Xi/n
Z=Xbar-μ0 / √μ0/n
μ<20
按照Poisson分布原理直接求出P
注意
定量资料给的是已知μ,我们用单样本Z或t检验,其σ依然未知,故需用S估计
而分类资料给的是已知得π0或μ0,已知这两参数后其单样本Z检验得分母可直接用已知参数表示,无需再用Sp之类得
F检验
完全随机设计方差分析
例题
为研究铅作业与工人尿铅含量关系,随机抽查4种作业工人尿铅含量结果如下,试问4种作业工人人群尿潜平均含量有无差别
独立成组设计+连续定量数据
首选方差分析,但条件需要:资料间独立、方差齐性、服从正态或大样本;否则适用Kruskal-Wallis test
F=MS组间/MS组内
MS=SS/ν
SS总
SS组间
SS组内
可进一步两两比较
LSD-t test
t=X1bar-X2bar/S[x1bar-x2bar],ν=n1+n2-2
Bonferroni
为研究茶多酚保健饮料对急性缺氧的影响,某研究者将60只小白鼠随机分为低、 中、高三个剂量组和一个对照组,每组15只小白鼠。对照组给予蒸倒水0. 25 ml灌胃,低、中、高 剂量组分别给予2.0 g∕kg,4.0 g∕kg,8.0 g/kg的饮料溶于0.2 ~0. 3 ml蒸馏水后灌胃。每天一次,40天后,对小白鼠进行耐缺氧存活时间试验,结果如表。试比较不同剂量的茶多酚保健饮料对延长小白鼠的平均耐缺氧存活时间有无差别
默认满足方差分析条件
根据统计量计算公式计算相应参数
SS总=2068.593
SS组间=1205.796
SS组内=862.797
∑(ni-1)Si²
MS=SS/ν
F=MS组间/MS组内
进一步两两比较?
随机区组设计方差分析
理论
独立、正态其方差齐——two-way ANOVA
F处理=MS处理/MS误差
F区组=MS区组/MS误差
MS处理=SS处理/k-1
k为处理组数
SS处理=b∑(Xjbar-Xbar)²
MS区组=SS区组/b-1
b为区组数
SS区组=k∑(Xibar-Xbar)²
SS误差=SS误差/(b-1)(k-1)
例题
探讨小剂量地塞米松对急性肺损伤动物模型肺脏的保护作用,将36只二级SD大鼠按性别、体重配成12个配伍组,每一配伍组的3只大鼠被随机分配到对照组、损伤组与激素组,实验24h后测量支气管肺泡灌洗液总蛋白水平(g/L),试问3组大鼠总蛋白水平是否相同
存在配伍设计,配伍条件是性别、体重;指标蛋白水平是连续定量资料
首选区组设计的方差分析:需满足独立、正态、方差齐
建立检验假设和检验水准
随机区组设计有两套假设
针对处理组:各处理方法下大鼠总蛋白水平相同/不全相同
针对配伍组:各配伍组内大鼠总蛋白水平相同/不全相同
α
计算检验统计量
F处理=MS处理/MS误差
即便题干只问了处理因素间的差异,但由于MS误差的计算通过SS总-SS处理-SS区组来计算更为便捷,故一般仍需计算SS区组
确定P值,做出推断
进一步两两比较??
无序分类资料
成组χ²
例题
某研究者100份细菌的培养基分别采取A、B两种方法进行培养。将100份细菌的培养基随机分配,每种方法50份,试问两种方法的结果是否相同
成组设计+阳性率的比较——首选两独立样本四格表资料的卡方检验
检验假设+α
检验统计量(首先确定是否要使用校正公式
确定P值做出推断
配对χ²
例题
配对设计+四格表无序分类资料,首选四格表χ²检验
四格表χ²需满足的条件:?(χ²检验为非参数检验,对资料无要求?
联系?——独立性检验?
差别?——差异性检验
R×C无序分类资料/分组有序,指标无序资料
R×C列联表资料
分组两分类无序资料,指标变量为多分类有序变量——W test
KW检验
直线回归与相关
?
生存曲线
例题
现有一组病人手术后随访研究资料,共9人,他们的生存时间(年)如下,请求出生存率,并用极限乘积法画出生存曲线。 1,3,3,7+,10,15,15+,23,30
生存曲线有两种描述方法,该题干数据并未分组且存在具体值,应用KM法
收集了3期的某型淋巴瘤患者的生存时间(天)。分别为6,19,32,42,42,43+,94,126+,207,211+,227+,253,255+,270+,310+,316+,335+,346+
卡方检验是非参数检验!
参数检验的判别特征: 1要求需要分析的样本资料服从相应的概率抽样分布 2对总体分布的参数作检验 卡方检验并不要求样本资料需要先服从某某分布以探求其所代表的总体参数。而是直接检验样本资料属不属于某分布。以χ²分布作为枢函数通过理论与实际频数差值所得χ²统计量与χ²抽样分布上的χ²界值作比较得到概率。
如何断定一个分析方法是参数检验还是非参数检验?
核心在于参数检验通常都建立在t分布之上,适用于连续型资料。非参数检验适用于连续型和离散型。所以无序分类资料卡方检验属于非参数检验 凡是分布未知或严重偏态时用的检验就是非参数检验
非参数检验分类
如何解释四格表卡方检验假设中的π?