概念探析
一般科学实验主要涉及以下三种变量:
自变量/独立变量(independent variable):自变量是指在实验中由实验者操作的变量,它被认为不会受其他变量的影响(即独立性)。
因变量(dependent variable):因变量是指随着自变量的变化而变化的变量。
控制变量(control/controlled variable / fixed variable):控制变量是指实验中除自变量以外的影响实验变化和结果的潜在因素或条件,且在实验中一般需要控制其不变。也称无关变量( extraneous variable),多见于心理学实验。
例如经典初中生物实验“光对鼠妇生活的影响”,考虑自变量“光”,因变量为“鼠妇的分布”,控制变量为“土壤湿度”和“温度”,通过实验者操作来改变自变量“光”(在实验中由实验者操作的变量),同时保持控制变量“土壤湿度”和“温度”不变(除自变量以外的影响实验变化和结果的潜在因素或条件),即可探究“光对鼠妇生活的影响”。
再复杂一些,一些实验中可能包含了一些不由实验者控制或实验者不想考虑的、但其与因变量甚至自变量都相关,有可能歪曲(掩盖或夸大)自因素与因变量之间真正联系的变量,我们称其为混杂变量或混杂因素(confounder、confound、confounding variable)。通常不将其视为控制变量。而为了尽可能降低其对实验的影响,通常就需要借助统计学中的一些方法了(如倾向得分匹配(PSM)等)。
混杂变量(混杂因素):混杂因子亦叫混杂因素或外来因素(confounder、confound、confounding variable),是指与研究因素(暴露因子)和研究疾病(结局因子)均有关、若在比较的人群组中分布不匀,可以歪曲(掩盖或夸大)研究因素与疾病之间真正联系的因素。
我们还会经常性地遇到协变量(covariate)这个称呼:
协变量:指实验中除自变量以外的影响实验变化和结果的潜在因素或条件,但并非实验所感兴趣的变量。
可以认为,控制变量和混杂变量都包含在协变量的范畴中。
统计学中有一个类似的分类,将变量分为解释变量(explanatory variable)、响应变量(response variable)与协变量。自变量和解释变量都是实验中实验者关注的那部分变量,区别仅仅在于解释变量未必是独立的,也不一定能由实验者进行控制。
在经济学和回归问题中,其实还有个类似的概念,外生性变量(exogenous variable)和内生性变量(endogenous variable):
A variable x_j is said to be endogenous within the causal model M if its value is determined or influenced by one or more of the independent variables X (excluding itself).
可以看出,虽然概念类似,但是内生性变量和外生性变量是观测一个因果系统的时对变量内生性/外生性做出的描述,在一个因果系统内,内生性变量受到系统内外生性变量的影响,外生性变量则完全由外部条件决定。因此从稍微宏观点的角度看,对整个因果系统来讲,协变量可以是内生性变量也可以是外生性变量。
实际应用
而在计算机领域、统计学中研究的回归问题中,却通常不刻意区分自变量/解释变量/协变量,他们都可以被输入到自变量中,例如使用SPSS进行自回归分析:
只要认为有必要,大可将协变量输入到自变量栏目中。
复杂系统中,使用基于神经网络的回归模型对某些目标变量进行多变量回归,也可弱化对自变量/解释变量/协变量的区分,都将其输入,统称为协变量或变量。
参考文献
https://www.xiahepublishing.com/2475-7543/MRP-2017-005
https://bbs.pinggu.org/thread-4995555-1-1.html
https://www.statology.org/covariate/
https://www.zhihu.com/question/278428717
https://spss.mairuan.com/jiqiao/spss-genn.html
http://www-personal.umd.umich.edu/~delittle/Encyclopedia entries/Endogenous variable.htm
文章出处登录后可见!