百奥知

医学研究中的偏倚及其控制之混杂偏倚

发布时间:2022-05-18 阅读:10011

       在进行流行病学研究中,不论采用何种研究方法,都是采用样本来推断总体。有许多因素会影响其准确性使研究结果与真实情况发生偏差。引起偏差的原因包括两个方面,一是随机误差,二是系统误差。其中随机误差是由个体差异、抽样和其他未知原因引起的随机性误差,是无法避免的误差,但可以通过研究设计和统计分析方法减少和控制;系统误差一般是由人为或者测量方法不对引起的误差,即我们所说的偏倚,系统误差是可以减少甚至可以避免。减少随机误差可以提高研究的精准性,减少或避免系统误差可以提高研究的真实性。
      偏倚是随机误差以外的,可导致研究结果与真实情况差异的系统误差,可发生于研究的各个环节,有方向性。偏倚主要包括三类:选择偏倚、信息偏倚和混杂偏倚。

      上两期我们系统介绍了选择偏倚和信息偏倚,本篇我们来说混杂偏倚。

混杂偏倚概念

      混杂偏倚也称为混杂,指的是在流行病学研究中,由于一个或者多个潜在的混杂因素的影响,掩盖或者夸大了研究因素与研究疾病之间关系,从而使得两者之间的真正联系被错误地估计的系统误差。在分析性研究中比较常见。

      中介变量是研究因素到研究结局因果链上的一个环节。混杂因素不同于中介变量,它不仅对研究因素有影响,而且对研究结局有影响,还不是研究因素到研究结局因果链上的环节。混杂因素不容易确定和识别,需要临床专家、统计专家认真仔细研判来控制混杂因素。

临床数据分析与报告



混杂偏倚产生原因

 混杂偏倚产生的主要原因就是分组的不均衡。比如研究吸烟对肺癌影响的病例对照研究中,年龄就是混杂因素,如果病例组与对照组年龄分布不均衡,就可能错误地估计吸烟与肺癌的关系;再比如在随机对照研究当中,我们通常采用随机化的方法分配研究对象到研究组和对照组,能够实现研究对象的基本特征均衡分布,就不容易产生混杂因素。


混杂偏倚的控制

1.限制研究对象

      主要是通过入选标准针对某些潜在混杂因素进行限制。通过限制入选对象,可以得到同质的研究对象,从而避免混杂影响。但是这样的人群代表性可能会受影响,结论外推也会受到一定的限制。

2.随机化

      上文举例中,在RCT研究中通过随机化手段使得混杂变量在各组间均衡分布,从而达到控制混杂作用。

3.匹配

      是指为研究病例或者某特征人群选择对照时,针对特定的混杂因素,使其与研究组相同或相似,从而消除混杂因素的影响。在队列研究、病例对照研究和临床试验中都可使用此方法消除混杂因素的影响。需要注意的是,匹配因素不是越多越好,匹配的同时,我们也损失了部分信息,也不能研究其作为疾病影响因素来分析,匹配因素越多,损失信息越多,匹配主要的混杂变量为佳。

4.统计学处理

      对混杂因素的混杂作用,可以采用统计分析手段予以识别和控制。如采用分层分析、多因素分析。采用分层分析时,各层研究因素与疾病间的联系结论一致,就不存在混杂变量与研究因素的交互作用,使用Mantel-Haenszel分层分析,得到将混杂变量调整后分析结果。当分层分析不适用的时候(混杂因素较多),可采用多因素分析方法进行分析(回归分析、协方差分析等)。

编者简介

张尚超

百奥知 统计总监

吉林大学公共卫生学院公共卫生专业,硕士研究生

曾担任吉林大学第一医院新生儿科科研助理。

现任北京百奥知医药科技有限公司统计总监兼任智能分析产品经理。

主要研究方向:临床流行病学、分子流行病学、临床数据挖掘分析、机器学习等。

发表SCI论文8篇,其中一作1篇,影响因子IF=5.5。参与国家自然科学基金面上项目1项,其他科研项目4项。

精通SPSS、R语言、SAS、Python、Graphpad Prism等统计分析软件。近4年,主持参与50+项目统计分析工作及多项科研项目设计工作。