摘要:多元或多变量线性回归模型(multivariate linear regression model)是指多个因变量的回归模型。103(1): 39–40.)这篇文章中,作者分析了30篇声称使用了多元(multivariate)方法的文章,结果发现,其中只有5篇是真正使用了多元(multivariate)方法,主要是纵向数据(即重复测量数据),其余25篇其实是多因素分析(multivariable analyses),主要是logistic回归。

内容来自: “小白学统计”微信公众号,感谢作者授权。
在回归分析中,经常看到多变量回归、多因素分析、多重线性回归、多元logistic回归等诸如此类的名词。这些所谓的多变量、多因素、多重、多元,是否一回事?很多初学者都会比较迷惑,本文主要对此做一阐述。
回归分析中,主要就是因变量和自变量,大多数的回归模型的形都是如下所示:
因变量(或因变量的变换)=截距+回归系数*自变量(可以是多个自变量)
它反映了1个或多个自变量是如何影响因变量的。
因此,关于多变量、多因素、多重、多元,也就是如何对应因变量和自变量
为了简单起见,下面都以线性回归为例来说明,其它如logistic回归、Poisson回归等都一样。
(1)简单(simple)线性回归
简单线性回归模型(simple linear regression model)是指1个因变量、1个自变量的模型,如下:
(2)多因素(multivariable)或多重(multiple)线性回归
多变量线性回归或多重线性回归(multivariable or multiple linear regression)是一回事,是相对简单线性回归而言。简单线性回归只有1个自变量,多因素线性回归或多重线性回归则是有多个自变量。但它们都是只有1个因变,模型如下:
(3)多元或多变量(multivariate)线性回归
多元或多变量线性回归模型(multivariate linear regression model)是指多个因变量的回归模型。
大家可以再对比一下多元方差分析和多因素方差分析。
多元方差分析或多变量方差分析,它们都是什么意思呢?主要适用于像重复测量数据这种情况,在重复测量数据中,每个人测量了多次,有多个结局变量(因变量),因此是多元方差分析。
多因素方差分析主要用于什么情形呢?通常用于有多个分组变(自变量),如析因设计中至少有2个分组变量,这种情况下,采用的是多因素方差分析。这里的“因素”是指自变量,因此不是多元方差分析。
有些分类比较清楚的统计软件,其实分的很清楚,尤其是一些菜单结构的。比如下图是SAS jmp软件的菜单,可以看出,在多元方法的菜单中,不是回归分析,而是主成分分析、因子分析、偏最小二乘回归等方法。

为什么呢?因为回归分析除非特指,一般我们默认的都是1个因变量,但是自变量可以是1个或多个。而主成分分析、因子分析等这些方法,都是针对多个因变量的(不清楚的可以回去翻翻书),所以是多元方法。
在《Multivariate or Multivariable Regression?》(Am J Public Health. 2013; 103(1): 39–40.)这篇文章中,作者分析了30篇声称使用了多元(multivariate)方法的文章,结果发现,其中只有5篇是真正使用了多元(multivariate)方法,主要是纵向数据(即重复测量数据),其余25篇其实是多因素分析(multivariable analyses),主要是logistic回归。有的文章中则是multivariate和multivariable在交互替代使用,把它们当做一回事。
由此可见,关于多重、多因素、多元、多变量等这些我们似乎每天都挂在嘴边的名词,其实并不是像我们想象的这么简单。即使在国际期刊,名词混用的也大有人在。
希望通过本文介绍,大家以后可以区分这些基本概念,在文章撰写时更加严谨。
当然,本文说的主要是医学统计学中的一些区分,或许在有的领域并没有区分这么明显。
因为我有一篇文章,提到了多因素分析和多元分析的不同,结果有一位数理统计的老师给我的审稿意见是:在数理统计学中,多元(multivariate)就是多因素(multivariable),不用区分。我个人没有在工科的学校学过,所以非常希望有数理统计老师明确告知,数理统计中,是否真的不区分这两个概念?

由医咖会与心联乔治心脏健康研究中心(HHRC)联合建立的心血管研究协作网络及数据共享平台(CDS)已经上线!

目前开放共享的数据为“中国房颤注册研究”,共有2.5万多房颤数据,欢迎来申请使用数据,发表SCI论文!

平台网址:

相关文章