导图社区 人卫第8版《流行病学》——第五章《病例对照研究》
本章主要介绍流行病学中的病例对照研究,其与队列研究十分相似,也容易混淆,要注意辨析清楚两者的原理!资料的整理与分析部分计算知识点较多,难度较大,是重要的知识点,要认真学习哦!
编辑于2023-03-14 15:38:59 广东社区模板帮助中心,点此进入>>
第五章 病例对照研究
概述
基本原理
1、以当前已经确诊的患有某特定疾病的一组病人作为病例组,以不患有该病但具有可比性的一组个体作为对照组
2、通过询问、实验室检查或复查病史,收集研究对象既往对各种可能的危险因素的暴露史
3、测量并采用统计学检验,比较病例组与对照组各因素暴露比例的差异是否具有统计学意义
4、评估各种偏倚对研究结果的影响,并借助病因推断技术,判断某个或某些暴露因素是否为疾病的危险因素,从而达到探索和检验病因假说的目的。
5、是一种由果及因的分析性研究方法,是在疾病发生之后去追溯假定的病因因素的方法,可在一定程度上检验病因假说
基本特点
1、观察性研究
研究对象的暴露情况是自然存在而非人为控制的,故病例对照研究属于观察性研究
2、研究对象分为病例组和对照组
研究对象是按是否具有研究的结局分成病例组和对照组
3、由“果”溯“因”
病例对照研究是在结局发生之后追溯可能原因的方法
4、因果联系的论证强度相对较弱
病例对照研究不能观察到由因到果的发展过程,故因果联系的论证强度不及队列研究
研究类型
1、非匹配病例对照研究
=成组病例对照研究:在设计所规定的病例和对照人群中分别抽取一定数量的研究对象进行组间比较,对照的选择没有其他任何限定与规定
一般对照的数应等于或多于病例人数,但病例与对照的数量不需成严格的比例关系
这种方法叫匹配法更容易实施,但方法本身控制混杂因素的能力较弱,应在统计分析中予以弥补
2、匹配病例对照研究
要求选择的对照在某些因素或特征上与病例保持一致,目的是使匹配因素在病例组与对照组之间保持均衡,从而排除这些因素对结果的干扰
选择对照的方法详见本章第二节。
这种方法可增加分析时的统计学检验能力,提高研究效率
增加了选择对照的难度,并且资料整理与统计分析较麻烦
3、衍生的几种主要研究类型
巢式病例对照研究
队列研究+病例对照研究
基本设计方法
队列研究的基础上,在一定的观察期中
所研究疾病的新发病例累积到一定数量,则可将全部病例集中组成“病例组”
开始的研究节点
每一个病例发病当时,从同一队列的未发病者中,按一定匹配条件随机选择对照,集中组成对照组
抽取病例与对照的基线资料,并检测收集的生物学标本,按匹配病例对照研究的方法进行资料的统计分析
与传统的病例对照研究对比
病例-队列研究
队列研究+病例对照研究
基本设计方法
队列研究开始时,在队列中按一定比例随机抽样,选出一个有代表性的样本作为对照组
开始研究的节点
观察结束时,将队列中出现的所研究疾病的全部病例作为病例组,与上述随机抽取的对照组进行比较
二者的不同之处
1、前者的对照者与病例按个体匹配,而后者的对照是从基线纳入的全部队列人群中随机选取
2、前者不同的疾病结局的研究,对照组不同;后者的对照组可作为多种疾病结局的共用对照组
病例-病例研究
在病例对照研究中,有时选择合适的对照颇为不易,特别是在分子流行病学研究中,从无疾病的对照中去获取某种生物标本也会受到医学伦理方面的制约
如果对一种疾病的两个亚型进行对比研究,例如出血性脑卒中与缺血性脑卒中,可以不另外设对照组,而采取两个亚组的直接比较
由于比较的两组均为病例,故称为病例-病例研究,也称为单纯病例研究
适用
研究两组病因的差异部分,而其相同或近似的危险因素则将被掩盖或低估
研究遗传与环境因素之间的交互作用
病例交叉研究
定义:每个病例发病之前的一个或多个时间段,作为“对照”时间,疾病发生时的暴露情况和同一个个体“对照”时间段的暴露情况进行比较
优点:以自身为对照,个体不同时间点上的可比性较好
应用条件
整个时间里个体的暴露必须是变化的,而不是恒定的
暴露的诱导期和效应期都必须短暂,否则最近疾病发作可能是由遥远的过去的暴露造成
适用
对诱发因素的研究
研究暴露的瞬时效应,即暴露对发生急性事件的影响
用途
1、用于疾病病因或危险因素的研究
特别适合于研究某些潜伏期长及罕见的疾病
可以广泛探索病因或危险因素,也可在述说或探索性病例对照研究初步形成病因假说的基础上,检验某个或某几个病因假说
2、用于健康相关事件影响因素的研究
可采用病例对照研究方法对于健康相关的医学事件或公共卫生问题的影响因素进行研究,为制定相应的卫生决策提供依据
3、用于疾病预后因素的研究
用于筛选和评价影响疾病预后的因素
可以指导临床实践
4、用于临床疗效影响因素的研究
将发生和未发生某种临床疗效者分别作为病例组和对照组进行病例对照研究,可以分析不同疗效的影响因素
研究设计与实施
确定研究目的
是制定整个研究计划的核心和指导思想
明确研究类型
然后根据研究目的确定适宜的研究类型
广泛的探索疾病的危险因素
非匹配或频数匹配的病例对照研究方法
检验病因假设,尤其对于小样本研究,或者因为病例的年龄、性别等构成特殊,随机抽取的对照组,很难与病例组均衡可比时
个体匹配的病例对照研究
确定研究对象
对照的选择是病例对照研究成败的关键之一
1、病例的选择
病例的定义
病例应符合统一、明确的疾病诊断标准
尽量使用国际通用或国内统一的诊断标准,以便与他人的研究结果比较,并尽可能使用金标准
对于尚无明确诊断标准的疾病,可根据研究的需要制定标准,此时要注意均衡诊断标准的假阳性率及假阴性率,使诊断标准宽严适度
若研究者为了某个特殊的研究目的,可以对研究对象的某些特征做出规定或限制
病例的类型
病例的来源
2、对照的选择
选择对照的原则
对照必须是以与病例相同的诊断标准确认为不患所研究疾病的人
对照应该能够代表产生病例的源人群,即对照的暴露分布应该与病例源人群的暴露分布一致
对照的来源
同一个或多个医疗机构中诊断的其他疾病的病人
优点
易于选取,比较合作,且可利用档案资料
实际工作中经常采用
缺点
对照的暴露分布常常不同于病例的源人群
具有研究暴露的个体,更有可能生病来医院就诊,进而成为对照组;这就导致医院对照的暴露水平高于病例源人群的暴露水平
选择原则
因已知与所研究的暴露因素有关的病种入院的病人不能作为对照 (当研究吸烟与白血病之间的关联,当时用医院对照时,因心血管疾病,呼吸系统疾病等与吸烟有关的病种入院的病人不能作为对照,但是对于有心血管疾病或呼吸系统疾病史,但本次因为外伤入院者,仍为合格的对照。)
仅针对此次就诊的疾病而非疾病史
对照应有尽可能多的病种的病人组成,以避免因过多的代表某一类病人,而该病种恰与所研究疾病具有共同的危险因素,从而影响研究结果的真实性
社区人群或团体人群中非该病病例或健康人
优点:不易出现上述医院对照可能面临的选择偏倚问题
缺点:实施难度大,费用高,所选对照不易配合
病例的邻居或同一住宅区内的健康人或非该病病例
优点:有助于控制社会经济地位的混杂作用
适用:匹配设计
病例的配偶、同胞、亲戚、同学或同事等
优点:有助于排除某些环境或遗传因素对结果的影响
适用:匹配设计
在实际工作中可以选择多个对照,以弥补各自的不足
选择对照的方法
非匹配
选择对照时没有任何限制和要求
匹配
定义:要求对照在某些特征或因素上与病例保持一致,保证对照和病例具有可比性,以便对两组进行比较时排排除匹配因素的干扰
目的:提高研究效率,控制混杂因素的干扰
匹配注意事项
1、匹配因素必须是已知的混杂因素,或有充分的理由怀疑为混杂因素
2、疾病因果链上的中间变量不应匹配
3、对与可疑病因有关而与疾病无关的因素不应匹配
4、在一个研究中不应该选择很多的匹配因素,因为匹配变量越多,选择合格的对照就越困难
5、一般除性别,年龄之外,对其他因素是否进行匹配须持慎重态度,以防止匹配过度,徒增费用和难度
6、一定不能将研究者感兴趣的研究变量作为匹配因素,因为一旦病例与对照按照这些因素匹配,就使得病例与对照在这些变量方面一致,也就不能分析这些因素与疾病的关系了
匹配过度:把不起混杂作用的因素作为匹配变量,进行匹配,试图使对照组与病例组在多方面都一致,结果导致所研究的因素也趋于一致,结果反而降低了研究效率。
匹配的变量应当一致到什么程度,取决于变量的性质、必要性与可操作性
离散变量:可以完全匹配
连续变量:可以首先划分为若干组,再按组匹配
匹配的方式
频数匹配
对照组具有某种或某些因素或特征者所占的比例与病例组一致或相近
个体匹配
以对照与病例个体为单位进行匹配
1个病例可以匹配一个对照,这种情况叫配对
一般情况下,总样本量一定时,如果病例和对照的来源都较充足,病例与对照之比为1:1时的统计学效率最高
如果所研究的是罕见病或所能获得的合格病例很少,为了达到较满意的研究功效,可以增加匹配的对照数,即采用1:r匹配
超过1:4时工作量显著增大,实际应用时要权衡利弊
确定样本量
影响样本量的因素
研究因素在对照组或人群中的暴露率(P0)
研究因素与疾病关联强度的估计值,即比值比(OR)
希望达到的统计学检验角色的显著性水平(α)
希望达到的统计学检验假设的效能或称把握度(1-β)
基本
采取匹配设计,估计样本量时,还需要考虑病例和对照的比例
非匹配病例对照研究样本量估计
Z分别为α和1-β对应的标准正态分布临界值
P1和P0分别为病例组和对照组的暴露率
P1可根据P0与OR推算:
1:1匹配病例对照研究样本量估计
个体配对时,病例与对照暴露状态不一致的对子,对于所研究的问题才有意义
具体做法
先求病例与对照暴露状态不一致的对子述(m)
再按下式求需要调查的总对子数(M)
P0和P1分别代表源人群中对照组合病例组的估计暴露率
1:r匹配病例对照研究样本量估计
病例数与对照数不等时,病例对照研究所需的病例数(n),对照数为r×n
注意
以上样本含量估计只有相对意义,并非绝对精确的数值
样本量估计是有条件的,而这种条件在重复研究中不是一成不变的
实际研究中,往往需要同时探索,几个因素与所研究疾病的关系,而每个因素都有各自的OR和P0,因此,需要根据每个因素的参数估计所需要本量,然后选择最大的样本量,以便使所有的因素都能得到较高的检验效率
样本量越大,结果的精确度越好
但样本量过大,常会影响调查工作的质量,增加负担和费用
确定研究因素
应根据研究目的确定研究因素
暴露因素可以多种多样
可以是宏观因素,如社会经济地位、生活方式等
可以是微观的,如易感基因
来源
通过描述性研究不同地区和人群中进行的病例对照研究,临床观察或其他学科领域提出的研究线索,帮助确定研究因素
尽可能采取国际或国内统一的标准,对每项研究因素的暴露与否或暴露水平做出明确而具体的规定,以便交流和比较
评价暴露水平
暴露的数量
暴露持续时间长和(或)暴露的剂量大,发生某疾病的危险度会增高,因此累积的总暴露情况很重要,最好由适宜的变量加以评价
暴露持续时间
对于隐匿期长的发病过程,暴露的时间非常重要
除了包括与病因假设有关的暴露外,还需包括可能的混杂因素,以便在资料分析时排除其对结果的干扰
测量指标
尽量选用定量或半定量指标
也可按明确的标准进行定性测定
研究因素并不是越多越好,应以满足研究目的的需要为原则,即与研究目的的有关变量不可缺少,而且应当尽量细致和深入;反之,与研究目的无关的内容则不要列入
资料收集方法
主要靠询问调查对象并填写问卷,包括面访,信访,电话访问,网络调查,自填问卷等方式
有时需辅以查阅档案
有时需要现场观察和实际测量某些指标
收集资料是否准确可靠关系到研究结果和结论的真实性,因此无论什么方法,都应实行质量控制,对调查员进行培训,对调查工作要做好监督和检查,尽量减少调查和测量偏倚,以保证调查质量
特别注意,应采用可比的方法对病例和对照进行信息收集
要保证比较的不同组别之间信息应该具有相似的质量,即要求病例和对照搜集信息的方式、资料来源、暴露测量时间和标准应一致,资料的准确性要可比,以便减少偏倚
资料的整理与分析
中心内容
比较病例与对照中暴露的比例
并由此估计暴露与疾病之间是否有关联及其关联强度
也可进一步分析暴露与疾病的剂量反应关系等
可通过分层分析、多因素分析控制混杂偏倚对研究结果的影响
1、资料的整理
原始资料的全面检查与核实,确保资料尽可能完整和准确
对原始资料进行分组、归纳或编码后输入计算机,建立数据库
目前大多采用双录入的方法和录入后进行逻辑检错
2、资料的分析
描述性统计
一般特征描述
即对研究对象的一般特征,如年龄,性别,职业,居住地等及病例的临床分型等的分布频率进行描述
均衡性检验
比较病例组与对照组某些基本特征是否相似或齐同
目的是检验两组的可比性
推断性分析
非匹配设计资料的分析
整理表格
暴露与疾病关联性分析
检验病例组某因素的暴露率或暴露比例(a/a+c)与对照组(b/b+d)之间的差异是否具有统计学意义
两组暴露率差异的统计学检验可用四格表的卡方检验
当四格表中的一个格子的理论数≥1但<5,总例数>40时
关联强度分析
一般情况下,病例对照研究中,没有暴露组和非暴露组的观察人数不能计算发病率,因此不能直接计算RR,但可用比值比(OR)来近似估计RR
比值比:=比数比、优势比,为病例组与对照组两组暴露比例比
比值或比数是某事物发生的可能性与不发生的可能性之比
OR的计算
病例组的暴露比例
对照组的暴露比例
比值比
OR又称交叉乘积比
OR的含义
与RR相同,均指暴露者疾病的危险性是非暴露者的多少倍
OR>1,说明暴露与疾病成“正”关联,即暴露可增加疾病的危险性,暴露因素是疾病的危险因素
OR<1说明暴露与疾病成“负”关联,即暴露可降低疾病的危险性,暴露因素是保护因素
OR=1,表明暴露因素与疾病之间无统计学联系
计算OR的95%CI
Miettinen法
方法简单,较常用
式中一般不校正的卡方值
Woolf法
自然对数法,建立在方差的基础上
lnOR的方差为
当四个表中某一格的数值为0时,可在每个格的数值上各加0.5,再求他们的倒数之和
上述两种方法计算结果基本一致
估计归因危险度百分比(AR%)& 人群归因危险度百分比(PAR%)
前提条件
在病例对照研究中,一般不能获得发病率和RR
当所研究疾病的发病率很低(如<5%)时,OR≈RR,故可用OR来代替RR估计AR%
如果对照组的暴露率可以代表病例源人群的状况,则可用对照组的暴露率代表人群暴露率Pe
计算
1:1匹配资料的分析
表格整理
暴露与疾病关联分析
McNemar卡方检验
适用于较大样本
当(b+c)<40时
计算OR
计算Or 95%CI
仍用Miettinen法
式中一般不校正的卡方值
非匹配资料的分层分析
背景:病例对照研究中的混杂因素可以用匹配设计加以控制,但未被匹配的混杂因素,需要用分层分析的方法去识别,并估计和控制其作用。
基本思路
根据潜在混杂因素的有无或程度,将研究对象分为不同的层
在各层中比较病例组和对照组暴露因素的分布
分别计算各层的ORi,并进行齐性检验
如果齐性检验结果显示各层的OR值的差别没有统计学意义,说明各层资料是同质的,可计算总OR即Mantel-HaenszelOR(简称ORMH)
如果齐性检验结果显示各层的OR值的差别有统计学意义,提示各层资料不属于同质资料,不宜在计算合并OR值,而因进一步分析分层因素与暴露因素之间的交互作用
总步骤
判断是否存在混杂因素或某因素是否为混杂因素
1、在没有研究因素的层中,分析混杂因素与结局的关联强度,计算OR和卡方值
2、再分析在对照组(没有研究结局的层)中,分析混杂因素与研究因素的关联强度,计算OR和卡方值
3、判断可以混杂因素是否为研究因素与结局之间的中间环节
步骤
判断混杂因素是否引起了偏倚,即是否其混杂作用
混杂因素存在不一定会引起偏倚
分层分析的步骤
计算各层资料的OR
不考虑混杂因素时的OR
按混杂因素时的分层OR
各层的OR与不分层时的OR不相同,说明混杂因素齐了一定的混杂作用
按混杂因素分层后,进行齐性检验
常用Woolf齐性检验法
若各层无统计学意义,说明各层资料同质,可计算总卡方值和总OR
计算总卡方值
E(ai)为ai的期望值
Var为ai的方差
当四格表中某一格子的理论数小于5
计算ORMH及其95%
95%CI用Miettinen法
局限性
虽然能按照一个以上混杂因素分层进行分层分析,但当混杂因素很多时,分层较多,每层内研究样本可能会很少,不能满足统计分析的需要,故应用上受到一定限制
目前许多多因素分析模型,如多元线性回归和logistic回归等被广泛应用于病例对照研究的资料分析,以探讨多个因素与疾病间的关系以及控制混杂因素,操作简单,结果可靠
剂量反应关系的分析
背景
前述分析方法都是建立在2×2表的基础上,虽然可以同时调整几个混杂因素,每个混杂因素也可分为若干个水平,但暴露因素只分为两个水平
在病例对照研究中,如能够获得某些暴露因素不同暴露水平的资料(也称分级资料),可将不同暴露水平的资料由小到大或由大到小分成多个有序的暴露等级,不同暴露等级分别与无暴露或最低水平的暴露作比较,以分析这些暴露与疾病之间的剂量反应关系,增加因果关系推断的依据
分析暴露资料的分析方法
表格整理:R×C列联表
进行R×C列联表资料的卡方检验
计算各暴露水平的OR值
通常以不暴露或最低水平的暴露组为参照组,其余暴露水平各组分别与参照组进行比较,计算各组的OR值
若个OR值呈明显的剂量-反应关系,还需经卡方趋势检验来判明剂量反应关系是否有统计学意义
趋势检验
第i组暴露水平的xi=i,参照组为x0=0
研究功效
定义:也叫把握度,可以解释为拒绝无效假设的能力,是当无效假设不成立时,该假设被拒绝的概率
一般认为一项研究的功效应在80%以上
研究功效只是一个粗略的估计,计算的结果可供设计阶段参考
偏倚及其控制
选择偏倚
定义:一项病例对照研究所选择的研究对象只是源人群的一个样本,由于选入的研究对象与未选入者在某些特征上存在差异而引起的系统误差
入院率偏倚/伯克森偏倚
产生原因
在以医院为基础的病例对照研究中常发生这种偏倚,当选择医院病人作为病例和对照时,病例只是该医院或某些医院特定病例,而不是全体病人的随机样本,对照是医院某一部分病人,而不是全体目标人群的一个随机样本
由于医院的医疗条件、病人的居住地区及社会经济文化等多方面的影响,病人对医院以及医院对病人都有一定的选择性,特别是因为各种疾病的入院率不同,可导致病例组与对照组在某些特征上的系统误差
控制方法
尽可能在社区人群中选择病例和对照,保证较好的代表性
从根本上解决
如进行以医院为基础的病例对照研究,最好能在多个不同级别、不同种类的医院选择一定时期内连续观察的某种疾病的全部病例或其随机样本,在与病例相同的多个医院的多个科室,多病种的病人中选择对照
因已知与所研究的暴露因素有关的病种就诊的病人不宜作为对照,以避免或减少入院率偏倚
现患病例-新发病例偏倚/奈曼偏倚
产生原因
如果调查对象选自现患病例,即存活病例,特别是病程较长的现患病例得到的一些暴露信息可能只与存活有关,而未必与该病的发病有关,从而错误的估计这些因素的病因作用
某病的幸存者由于疾病而改变了原有的一些暴露特征(如生活习惯),当他们被调查时,容易将这些改变了的暴露特征当作疾病前的状况,从而导致这些因素与疾病的关联误差
控制方法
选择新发病例作为研究对象,可避免或减少此类偏倚
补充
在进行宫颈癌病因的病例对照研究时,哪一组病例最为理想?
一个地区肿瘤发病监测系统登记的所有宫颈癌患者(√)
肿瘤发病监测系统登记的患者代表性较好,不易产生选择偏倚;且发病系统登记的是筛检时查出的阳性病例,医院诊断的是已经浸润的宫颈癌患者,因此发病时间比较新,是比较合适的病例来源
一个地区多所医院新诊断的宫颈癌患者(×)
不如上者代表性好
检出症候偏倚/暴露偏倚
产生原因
某因素虽然不是所研究疾病的病因,但有该因素的个体容易出现某些症状和体征,并常因此而就医,从而提高了所研究疾病早期病例的检出率
如果病例对照研究中病例组包括了较多的这种早期病例,致使过高的估计了病例组的暴露程度而产生的系统误差,即为检出症候偏倚
控制方法
在医院中收集病例时,最好包括不同来源的早、中、晚期病人,以便减少这种偏倚
信息偏倚
定义:=观察偏倚、测量偏倚,是在收集整理信息过程中,由于测量暴露与结局的方法有缺陷造成的系统误差
回忆偏倚
定义:由于研究对象对暴露史或既往使回忆的准确性和完整性存在系统误差而引起的偏倚
病例对照研究中最常见的偏倚
产生有关因素
调查时间和事件发生时间的间隔长短
事件的重要性
调查者的构成
询问技术
控制方法
充分利用客观记录资料,问卷调查时重视提问方式,适当采取一些调查技巧
选择新发病例作为调查对象
调查偏倚
来源
调查者
调查对象
原因
病例与对照的调查环境与条件不同
调查者对病例与对照采取不同的询问方式
对暴露测量方法采用的仪器设备或试剂不统一、不准确
控制方法
做好调查员的培训,统一对病例和对照的提问方式和调查技术
尽可能使用量化或等级化的客观指标
由同一调查人调查病例和对照,调查环境尽量一致
调查员向被调查者讲清调查目的,尽量取得他们的信任与合作,以减少报告偏倚
使用的检查仪器啊、试剂应精良,统一,使用前应校准,并在使用过程中要经常进行检查,以减少测量偏倚
混杂偏倚
定义:当我们研究某个因素与某种疾病的关联时,由于某个既与疾病有关系,又与所研究的暴露因素有关系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系造成的偏倚
混杂因素是所研究疾病的独立危险或保护因素(√)
混杂因素一定不是所研究疾病的危险因素(×)
混杂因素必须与所研究因素有关(√)
混杂因素一定不是研究因素与研究疾病因果链上的中间变量(√)
混杂因素如果能造成混杂,必须在比较的人群组间分布不均(√)
控制方法
研究设计阶段
限制
匹配
随机化
资料分析阶段
分层分析
多因素分析
与队列研究优点和局限性的比较