.什么样的因素才可以被称为混杂因素
实际上混杂因素不仅要分组是否均衡,它总共要满足3个条件:
1) 与研究因素存在着相关或因果关系(本条件即为分组不均衡的结果)
2) 与结局存在因果关系
3) 不在研究因素与结局因果链上的之间(如果是,那么即为我们之前提过的中介变量)

比如:研究某药物X的治疗肿瘤的效果(Z),同时发现,药物X可能通过改变体内的物质Y而影响疗效
由于非随机,药物X的使用还受到患者人口学、社会、经济因素(C)的影响。
例如:由于分组不均衡,药物组多为中青年人群,对照组多为中老年人。如果药物效果较好,生存率较高,则年龄是典型的混杂因素(C),而Y是中介变量。
如何判断某个变量为混杂因素
混杂因素三个条件,其中第1)和第2)条件一般可以通过统计学方法来解决,第三个条件则主要基于专业知识判断。
1)与研究因素存在着相关或因果关系
采用t、卡方、方差、秩和
2)与结局存在因果关系
采用线性(t检验)、logistic(卡方)、COX回归
3) 不在研究因素与结局因果链上的之间主要是专业判断
举例:分析性别、吸烟对幽门螺杆菌(HP)的影响,判断性别是否是混杂因素

1)判断不同吸烟状态中性别分布是否不同
吸烟人群,男性中比例更高;不吸烟人群中,女性比例更高;卡方检验结果,显示具有统计学差异

2)判断性别是否对Hp有影响:单因素logistic回归。
结果显示,性别对HP影响有统计学意义(P<0.001),男性感染率更高。

3) 性别不在吸烟与HP因果链上的之间:
从专业上判断成立。因为,如果性别在他们因果关系链上,会是什么情况?吸烟会通过改变性别,而影响HP感染率(Are you kidding?)
因此,性别是混杂因素!
实际操作上,该过程过于复杂,往往针对上述三个方面的两个方面来进行论证1)+3)或者2)+3),阳性结果称之为潜在混杂因素。潜在混杂因素在后期的统计分析过程中,很多时候比混杂因素更为常见。
分组不均和和混杂偏倚
一般情况下,观察性研究产生混杂的重要原因是分组不均衡。比如。病例对照研究,病例组和对照组之间分组不均衡的变量;队列研究,暴露和对照组分组不均衡的变量。
分组不均衡意味着混杂偏倚的三个条件,满足了第一个条件。因此,凡事分组不均衡的变量,我都称之为潜在混杂因素(或者可疑混杂因素)。
一般在统计分析中,我们需要简单到底哪些是干扰因素,一般不会严格鉴定是否混杂,但会挑选出潜在混杂因素。