导图社区 第五章病例对照研究
病例对照研究是最常用的分析流行病学研究方法,主要用于探索疾病的病因或危险因素和验证检验病因假设。
编辑于2022-08-11 11:27:29第五章病例对照研究
概述
病例对照研究是最常用的分析流行病学研究方法,主要用于探索疾病的病因或危险因素和验证检验病因假设
特别适用于潜伏期长的罕见病的病因或危险因素研究,有时识别其危险因素的唯一可行方法
也特别适用于研究分析多种危险因素与疾病的联系及相互作用
基本原理
以确诊患某种特定疾病的病人作为病例
以不患该病但具有可比性的个体作为对照
通过询问实验室检查或复查病史,搜集既往危险因素暴露史
测量并采用统计学检验,比较病例组与对照组各因素暴露比例的差异是否有统计学意义
评估各种偏倚对研究结果的影响,并借助病因推断技术,判断某个或某些暴露因素是否为疾病的危险因素
病例对照研究基本特点
观察性研究
研究对象的暴露情况是自然存在,而非人为控制
研究对象分为病例组和对照组
由“果”溯“因”
时间顺序 ,是在结局发生之后追溯可能的原因的方法
因果联系的论证强度相对较弱
不能观察到由因到果的发展过程
论证强度不及队列研究
研究类型
非匹配病例对照研究
非匹配病例对照研究又称成组对照研究
在设计所规定的病例和对照人群中,分别抽取一定数量的研究对象,进行组间比较
对照的选择没有其他任何限制与规定
方法本身控制混杂因素的能力较弱,应在统计分析中予以弥补(如非匹配资料的分层分析)
匹配病例对照研究
要求选择的对照在某些因素或特征上与病例保持一致,
目的是使匹配因素(混杂)在病例组和对照组之间保持均衡,从而排除这些因素对结果的干扰
这种方法增加分析时的统计学检检能力,提高研究效率,
但也增加了选择对照的难度(详见第二节选择对照的方法),资料整理与统计分析较麻烦,
衍生的几种主要研究类型
巢式病例对照研究
是一种在队列研究基础上的病例对照研究,是队列研究与病例对照研究结合的设计形式
设计方法
在队列研究的基础上,在一定的观察期中,当所研究疾病的新发病例累积到一定数量,可将全部病例集中组成(病例对照研究的“病例组”,
在每个病例发病当时,从同一队列的未发病者中,按一定匹配条件随机选择对照,集中组成“对照组”
按匹配病例对照研究的方法进行资料的统计分析
巢式病例对照均来自同一特定队列,犹如出自一巢之鸟之一
非常适合分子流行病学研究
由于在基线调查时就已经收集暴露信息并采集了生物样本,可以避免选择偏倚和信息偏倚,使研究对象更具有代表性和可比性
病例队列研究
也是一种队列研究与病例对照研究结合的设计形式
设计方法
队列研究开始时,在队列中按一定比例随机抽取选出一个有代表性的样本作为对照组
观察结束时将队列中出现的所研究疾病的全部病例作为病例组,与上述随机抽取的对照组进行比较
病例病例研究
在病例对照研究中,获取合适的对照非常不易(从无疾病的对照中去获取某种生物标本不符合伦理学要求)
特别适用于分子流行病学研究
把不同临床类型或具有某些生物学标志的病例 与 无标志的病例,按照病例对照研究的方式处理资料
探讨不同临床类型的危险因素的差异
例如出血性脑卒中与缺血性脑卒中
P53突变阳性基因型的食管癌与p53突变阴性基因型的食管癌
探究这个生物学标志与该病的其他危险因素之间的关系和相互作用
可用于研究遗传(一些生物标志物)与环境因素之间的交互作用
由于比较的两组均为病例,故称为病例病例研究,又称为单纯病例研究
缺陷:这种设计适用于研究两组病因的差异部分,而其相同或相似的研究危险因素则将被掩盖或低估
病例交叉研究
临床上有很多诱发因素可导致突发事件,如脑梗死,脑出血
对于这些事件诱发因素的研究,可采用病例交叉研究
适用于研究暴露的瞬间效应,即暴露对发生急性事件的影响
研究方法
以每病例发病之前的一个或多个时间段作为对照时间段
疾病发生时的暴露情况与同一个个体“对照时间段”的暴露情况进行比较
注意
整个时间里个体的暴露必须是变化的,而不是恒定的
暴露的诱导期和效应期都必须短暂,否则最近疾病发作可能是由遥远的过去的暴露造成
用途
用于疾病病因或危险因素的研究
特别适合于研究某些潜伏期长以及罕见的疾病
用于健康相关事件影响因素的研究
用于疾病预后因素的研究
用于筛选和评价影响疾病预后的因素
以同一疾病的不同结局
比如死亡与痊愈分为病例组和对照组
做回顾性调查,追溯产生某种结局的有关因素
通过对比分析,发现影响疾病预后的主要因素
用于临床疗效影响因素的研究
将发生和未发生某种临床疗效(有疗效的对照,无疗效的病例),分别作为病例组和对照组进行病例对照研究
分析不同疗效的影响因素
研究设计与实施
确定研究目的
明确研究类型
非匹配或频数匹配病例对照研究
用于广泛的探索疾病的危险因素
个体匹配病例对照研究
用于检验病因假设 尤其是小样本研究,或者因为病例的年龄,性别等构成特殊(随机抽取的对照组与病例组之间可比性差)
可以采用个体匹配的病例对照研究,以保证病例与对照在某些重要方面的可比性(控制混杂偏倚)
确定研究对象
对照的选择是病例对照研究成败的关键之一
病例的选择
病例的定义:病例应符合统一明确的疾病诊断标准,尽量使用金标准
对于尚无明确诊断标准的疾病,可根据研究的需要自定标准
注意均衡诊断标准的假阳性率及假阴性率,使诊断标准宽严适度
研究者根据特殊的研究目的,可以对研究对象的某些特征作出规定和限制
病例的类型
新发病例
尽量选择新发病例
优点
新发病例代表性好
回忆偏倚小
病历资料容易获得
被调查因素改变少
缺点
在一定范围或一定时间内较难得到预期的新发病例数,对于罕见病例更是如此
现患病例
优点
在较小范围,较短时间内得到足够的病例数
缺点
现患病例患病时间长,回忆偏倚大
难以区分暴露与疾病发生的时间顺序
因此在应用现患病例时,要尽量选择诊断时间距离(诊断时间比较近的)进行调查时间间隔较短的病例
死亡病例
准确性差,信息由家属提供
应用在主要靠亲友提供资料的疾病,比如儿童白血病的研究
病例的来源
医院来源的病例
从一所或几所医院甚至某个地理区域内全部医院的住院或门诊确诊的病例中,选择一个时期内符合要求的连续病例
优点
节省费用,合作性好,资料容易得到信息,较完整,准确
缺点
若仅从一家医院选取病例,代表性较差
为了减少偏倚,病例应尽量选择不同水平,不同种类的医院
社区人群来源的病例
病例的代表性好,结果推及到人群的可信程度较高
但调查工作比较困难,耗费人力物力较多
对照的选择
对照的选择比病例的选择更复杂,更困难
选择对照的原则
对照必须是用与病例相同的诊断标准,确诊认为不患所研究疾病的人
应遵循代表性原则
对照必须来自于产生病例的源人群
对照的暴露分布应该与源人群的暴露分布一致
对照的来源
①从病例的源人群中抽取对照或者是②获取对照的人群的暴露分布与与病例源人群的暴露水平一致
主要的对照来源
同一个或多个医疗机构中诊断的其他疾病的患者
优点
易于选取,比较合作,且可利用档案资料
缺点
这种来源的对照的暴露分布常常不同于病例的源人群
避免这种选择偏倚的原则
已经知道的与所研究的暴露因素有关的病种入院的病人不能作为对照
对照应由尽可能多的病种病人组成
社区人群或团体人群中非该病病例或健康人
不易出现上述医院对照可能面临的选择偏倚问题
但是实施难度大,费用高,所选对照不易配合
病例的邻居或同一住宅区内健康人或非该病病例
有助于控制社会经济地位的混杂作用,用于匹配设计
病例的配偶,同胞,亲戚,同学或同事等
有助于排除某些环境或遗传因素对结果的影响,用于匹配设计
选择对照的方法
非匹配设计
选择对照时没有任何限制和要求
匹配设计
匹配(或配比)概念
是要求对照在某些特征或因素上与病例保持一致,保证对照与病例具有可比性
匹配的目的
提高研究效率
控制混杂因素的干扰
匹配的变量
匹配变量必须是已知的混杂因素或有充分理由怀疑为混杂因素
混杂因素与疾病有关,与暴露也有关,但不是疾病和暴露的中间环节
匹配过度
在一个研究中不应该选择很多的匹配因素,因为匹配变量越多,选择合格的对照就越困难
并且把不起混杂作用的因素作为匹配变量进行了匹配,试图使病例组和对照组在多方面都一致,结果导致所研究的因素也趋于一致,结果反而降低了研究效率,掩盖研究病因和疾病间的真实联系
一般除性别,年龄之外,对其他因素是否进行匹配应该慎重
匹配的方式
频数匹配
是指对照组具有某种或某些因素(特征)的人所占的比例与病例组一致或相近
比如对照组男生女生的比例是1:2,病例组男生和女生的比例应该也是1:2或1:2相近
个体匹配
是以对照与病例个体为单位进行匹配
一个病例可以匹配一个对照,这种情况叫配对
一病例也可以匹配多个对照,匹配的比例要根据研究的具体情况而定
在总样本量一定,病例和对照的来源都比较充足,病例与对照之比为1:1时统计学效率最高
对照和病例来源充足
如果所研究的是罕见病或所能获取的合格病例数很少,为了达到满意的研究功效,可以增加匹配的对照数,1:r
病例数很少,都是罕见病
随着r值的增加,效率逐渐增加,但增加的幅度小,工作量却在增加
尤其是超过1:4时,增加的幅度越来越小,所以实际应用时要权衡利弊,选择匹配的比例
一般R不超过四个
在实际工作中可以选择多个对照,以弥补各自的不足 也应注意各种不同来源的对照,可解决的问题不同,在下结论时一定要综合考虑
确定样本量
影响样本量的因素
研究因素在对照组或人群中的暴露率P₀
暴露率越小,所需要样本量越大
研究因素与疾病关联强度的估计值,即比值比OR
OR值越大,所需样本量越小
希望达到的统计学检验假设的显著性水平,第Ⅰ类错误概率α,(一般取0.05)
a越小,所需样本量越大
希望达到的统计学检验假设的效能或称把握度(1-β),β是第Ⅱ类错误概率,一般取0.01
一般认为一项研究的功效应在80%以上
功效或把握度越大,β越小,所需样本量越大
样本量的估计
查表法
公式法
非匹配样本量估计
1:1配对样本量估计
1:r匹配样本量量估计
样本量越大,结果的精确度越大,但是样子量过大会影响调查工作的质量,添加负担和费用
确定研究因素
根据研究的目的或具体的目标确定研究因素,尽可能采取国际或国内统一标准来确定暴露与否和暴露水平
可以从暴露的数量和暴露持续时间评价暴露水平
测量指标尽量选用定量或半定量指标,也可按明确的标准进行定性测定
研究因素不是越多越好,应以满足研究目的的需要为原则,即与研究目的有关的变量不可缺少,与研究目的无关的内容则不要列入
资料收集方法
资料的收集在病例对照研究中十分重要,方式方法不恰当,收集的资料就不可靠,产生的系统误差(偏倚)无法通过统计方法纠正
要求病例和对照收集信息的方式,资料来源,暴露测量时间和标准应一致,资料的准确性要有可比性,以便减少偏倚
保证比较的不同组别之间的信息有相似的质量
主要资料来源
询问调查对象并填写问卷
查阅档案
现场观察和实际测量某些指标
资料的整理
对所收集的原始资料进行全面检查与果实
对原始资料进行分组归纳或编码后输入计算机建立数据库
资料的分析
描述性统计
一般特征描述,年龄,性别,职业等
均衡性检验
检验两组在研究因素以外的其他主要特征方面是否具有可比性
两组间非研究因素均衡可比才能认为两组暴露率差异与发病有关
推断性分析
概念:通过比较病例组与对照组对某些研究因素暴露率的差异,分析暴露以及有无关联,如果暴露与疾病有关联,则进一步分析关联的强度
非匹配设计资料的分析
分析步骤
病例对照研究中,对每一个研究因素的资料均整成四格表的形式
暴露与疾病关联性分析
检验病例组某因素暴露率或暴露比例与对照组之间的差异是否具有统计学意义
利用卡方公式
暴露与疾病关联强度分析
描述暴露与疾病联系强度的指标是相对危险度RR,但在病例对照研究中,没有暴露组与非暴露组的观察人数(与队列研究不同),不能计算发病率,因此不能直接计算RR ,可用比值比OR来近似估计RR
不能使用rr值的原因
比值比又称比数比,比势比为病例组与对照组两组暴露比值之比
指暴露者疾病的危险性是非暴露者的多少倍
计算or的95%可信区间
按一定可信度估计总体人群或源人群OR范围,即OR可信区间(IC)
方法
Miettinen法
方法简单,较常用
利用计算的卡方值来估计
woolf法
自然对数转换法,是建立在方差基础上的
意义
还可以根据or的可信区间是否包括1,判断暴露因素与疾病间有无关联
不包括1,说明如果进行多次病例对照研究,有95%的可能不等于1(如果进行100次研究,有95次不等1),则该项目研究不等于1并非抽样误差所致 ,可认为研究因素与研究疾病有关联
可信区间包括1,说明进行多次病例对照研究,可能有95%的研究,OR值等于1或接近1,研究因素与研究疾病无关联
估计归因危险度百分比,和人群归因危险度百分比
Or值很接近甚至等于RR值的两个条件
Or值来代替RR估计AR
所研究疾病的发病率很低
病例对照研究中对照组的代表性好,即及对照组暴露率能代表源人群的状况,
当研究疾病的发病率很低(小于5%)
Or来代rr计算AR%值
OR值可以估计RR,并且对照组暴露率可以代表病例源人群的状况
就可用对照组的暴露率代表人群暴露率Pe计算PAR%
人群归因危险度百分比PAR%
非匹配资料的分层分析
病例对照研究中,混杂因素可以用配比设计加以控制,但未被匹配的混杂因素,需要分层分析的方法去识别,并估计和控制混杂因素作用
分层分析
根据潜在混杂因素的有无或程度,将研究对象分为不同的层,然后在各层中比较病例组和对照组暴露因素的分布
一般步骤步骤
判断因素是否符合混杂因素的条件
若是混杂因素,可用分层分析方法控制混杂作用
按照混杂因素分层,计算各层的ORi,并进行齐性检验(ORi齐性检验,常用Woolf法)
各层OR值无明显差别(差别无统计学意义)
计算总的OR值(ORMH):这是对混杂因素校正或调整后的合并OR(常用Mantel-Haenszel提出的计算公式)
若调整后的合并OR值高于原OR,说明混杂作用减弱了疾病和暴露因素的关联强度
各层OR值有明显差别(差别有统计学意义)
说明各层资料不属于同质资料,不计算ORMH,考虑交互作用(用多因素分析)
当混杂因素很多,分层较多,分层分析不能满足统计分析的需要,可采用多因素分析模型:多元线性回归,Logistic回归
1:1配对资料的分析
按照配对卡方公式来计算
OR=病例组暴露对照组非暴露/对照组暴露病例组非暴露 OR=c/b
OR95%可信区间,用Miettinen法
剂量,反应关系的分析
将不同暴露水平分成多个有序的暴露等级,不同暴露等级与无暴露或最低水平的暴露就作比较,分析暴露与疾病之间的剂量反应关系
当获得的某些暴露因素为不同暴露水平时,该资料为分级资料,等级资料
方法
将资料整理成R×C列联表形式
进行卡方检验,用R×C列联表的卡方检验公式计算出卡方值
计算各暴露水平的OR值,通常以不暴露或最低水平的暴露作为参照组,根据组成的四格表,计算各组的or值
卡方趋势检验
来判别该剂量反应关系是否有统计学意义
比如,P值小于0.05,说明该剂量反应关系有统计学意义
根据计算出的OR值,可以看出OR随着暴露量的增加而递增,呈现明显的剂量反应关系(或者or随着暴露量的减少而减少),但是还需要经卡方趋势检验来判别该计量反应关系是否具有统计学意义
研究功效
概念
又称把握度,可以解释为拒绝无效假设的能力,即当无效假设不成立时,该假设被拒绝的概率
当两个总体参数确实存在差异时,所使用的统计检验能发现这种差异的概率
如β等于0.9,则当Ho不成立时,每100次检验中,平均有90次能拒绝Ho。
一般认为一项研究的功效应在80%以上
偏倚及其控制
选择偏倚
入院率偏倚(伯克森偏倚)
以医院为样本来源的病例对照研究中常发生这种偏倚,选择医院的病人作为病例组与对照组,
发生原因
病例和对照都不是目标人群的一个随机样本,缺乏代表性
医院的医疗条件,病人的居住地区及社会经济文化
解决方法
在多个不同级别,不同种类的医院,选择一定期间内连续观察的某种疾病的全部病例或其随机样本,在与病例相同的多个医院的多个科室,多病种的病人中选择对照
尽可能在社区人群中选择病例和对照,保证具有较好的代表性
现患病例_新发病例偏倚(奈曼偏倚)
发生原因
若调查对象选择现患病例,特别是病程较长的病例,得到的暴露信息可能只与存活有关,或未必与该病的发病有关
或者幸存者改变了原有的一些暴露特征
解决方法
选择新发病例作为研究对象
检出症候偏倚(暴露偏倚)
解决方法
在收集病例时,最好包括不同来源的早中晚期病人
来源
某因素虽然不是所研究疾病的病因,但有该因素的个体容易出现某些症状或体征,因此经常就医
某因素的存在可提高所研究疾病早期病例的检出率
例如:研究雌激素与子宫癌的关联,雌激素引起更年期,更年期容易去就医,就医时提高了早期子宫癌的检出率,如果在研究中病例组包括了较多的这种早期病例,就会过高的估计了病例组的暴露程度。
信息偏倚(又称观察偏倚或测量偏倚)
产生原因
收集整理信息过程中,测量暴露和结局的方法有缺陷,造成的系统误差
常见的有
回忆偏倚
最常见的,研究对象对暴露时或既往史用于匹配设计时回忆的准确性和完整性存在误差
产生原因
调查时间和事件发生时间的间隔长短
事件的重要性
被调查者的构成
询问技术
偏倚的控制
问卷调查时重视提问方式
适当采用一些调查技巧
充分利用客观记录资料
调查偏倚
产生原因:可能来自调查者或调查对象
病例与对照的调查环境与条件不同
调查者对病例与对照采取的不同询问方式
对暴露测量方法采用的仪器设备或试剂,不统一,不准确
控制偏倚
做好调查员的培训
使用量化或等级化的客观指标
调查环境尽量一致
混杂偏倚
概念
必须与所研究疾病的发生有关,是疾病的一个影响因素
必须与所研究的暴露因素有关
必须不是研究因素与研究疾病,因果链上的中间环节(不是中介变量)
位于研究的暴露与疾病病因通路上的因素不是混杂因素
定义
当我们研究某个因素与某种疾病的关联时,由于某个既与疾病有关系,又与所研究的暴露因素有关系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系,造成的偏倚
偏倚的控制
在资料分析阶段
可采用分层分析或多因素分析
多因素分析是将多因素引入并校正
分层分析
首先首先用混杂的标准判断混杂存在的可能性,比较分层调整前后的两个效应测量值(OR值)大小,来估计混杂作用的大小
在资料设计阶段
采用限制,配比(个体匹配)等方法控制混杂偏倚
可对研究对象做某种限制(比如某一年龄层,某性别),以便获得同质的研究样本
在对照选择中可采用匹配的方法,保证两组在一些重要变量上的可比性