在前期内容中,我们介绍了如何对数据进行标准化处理,将原始的连续型变量转化为一个无量纲的标准化数值,消除不同变量之间因性质、量纲、数量级等属性的差异而带来的影响,从而使不同变量的效应大小具有可比性,因此数据的标准化处理在实际的统计分析中也得到了较为广泛的应用。

  那么,提到不同变量的效应大小,大家一定会联想到在多因素回归模型中所得到的回归系数。例如,我们假设自变量分别为身高和体重,根据回归系数很容易就知道每增加1cm的身高或每增加1kg的体重,引起的对因变量Y的影响大小,但是两者相比之下,到底谁的作用大谁的作用小呢?

  原始的回归系数已经无法回答这样的问题,我们需要借助标准化回归系数来进行判断,今天我们就来向大家介绍一下,在回归模型中这个标准化回归系数到底是个什么鬼?

  标准化回归系数

  VS

  未标准化回归系数

  1、未标准化回归系数

  通常我们在构建多因素回归模型时,方程中呈现的是未标准化回归系数,它是方程中不同自变量对应的原始的回归系数。它反映了在其他因素不变的情况下,该自变量每变化一个单位对因变量的作用大小。通过未标准化回归系数和常数项构建的方程,便可以对因变量进行预测,并得出结论。

  2、标准化回归系数

  而对于标准化回归系数,它是在对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,使得不同变量之间具有可比性,因此可以用标准化回归系数来比较不同自变量对因变量的作用大小。

  通常我们主要关注的是标准化回归系数的绝对值大小,绝对值越大,可认为它对因变量的影响就越大。

  3、两者的区别

  未标准化回归系数体现的是自变量变化对因变量的绝对作用大小,而标准化回归系数反映的是不同自变量对因变量的相对作用大小,可以显示出不同自变量对因变量影响的重要性。

  如果用标准化回归系数构建方程,得到的结论是有偏差的,因为此时自变量和因变量的数据都发生了转化,成为了标准化数据,因此标准化回归系数不能用于构建回归方程

  VS

  每变化1个标准差的回归系数

  我们在前期文章《回归模型中引入连续变量,还有哪些玩法?》中,介绍到对于连续型变量,在纳入多因素回归模型中时,可以将其转变为每变化1个标准差的形式,具体的操作方法是对原始的自变量进行标准化处理,然后再带入到回归模型中,所得到的回归系数即为该自变量每变化1个标准差对应的回归系数。

  那么,我们假设此时有两个自变量,一个自变量的标准差为1,另一个自变量的标准差为100,两者对因变量都具有一定的影响。如果用上述每增加1个标准差对应的回归系数,来判断哪个自变量对因变量的影响更大的话,当同样变化1个标准差时,第一个自变量只需要改变1个单位,而第二个自变量则需要改变100个单位,因此标准差大的自变量改变起来就显得比较困难。此时,我们就需要用标准化回归系数来救场。

  每增加1个标准差对应的回归系数,反映的是自变量每变化1个标准差时对因变量原始值变化产生的影响。而标准化回归系数,它反映的是自变量每变化1个标准差时,对因变量变化1个标准差产生的影响。

  在计算每增加1个标准差对应的回归系数时,我们只需要对原始自变量进行标准化处理;而如果要计算标准化回归系数,则需要对原始的自变量和因变量同时进行标准化处理,标准化为标准正态分布对应的值后再构建回归模型。

  SPSS操作

  一、研究实例

  某研究人员收集了100名研究对象的最大摄氧量(VO2 max),并记录了他们的年龄、体重、心率等信息,拟探讨年龄、体重、心率对VO2 max的作用大小,同时评价上述哪一个因素对VO2 max的影响作用更大。

  二、操作步骤

  1、多重线性回归

  (操作步骤参考文章《SPSS实例教程:多重线性回归,你用对了么?》)

  根据多重线性回归分析的结果,回归方程可写为:

  VO2 max = 72.581 – 0.188 * age – 0.184 * weight – 0.059 * heart_rate

  其实不难发现,在SPSS的回归结果中,不仅展示了未标准化回归系数(Unstandardized Coefficients),同时也得出了标准化回归系数(Standardized Coefficients)。

  注意,未标准化回归系数更大的自变量,其标准化回归系数不一定更大。例如本例中,age的未标准化回归系数绝对值为0.188,大于weight的绝对值0.184,但是weight的标准化回归系数绝对值为0.325,却大于age的标准化回归系数绝对值0.200,说明weight对于VO2 max的影响较age更大。

  2、数据标准化处理

  (操作步骤参考前期推送文章《你听说过数据标准化处理吗?》)

  虽然SPSS在回归结果中可以直接输出标准化回归系数,但为了加深对它的理解,我们可以亲自对数据进行一遍标准化处理,对上述结果进行一下验证。

  Analyze → Descriptive Statistics → Descriptives → Save standardized values as variables

  通过上述步骤分别生成4个标准化处理后的新变量。

  3、标准化回归系数

  在进行多重线性回归时,以VO2 max的标准化形式作为因变量,以age、 weight、 heart_rate的标准化形式作为自变量构建模型。结果发现,所得的结果与上述结果一致。

  相互转换关系

  今天我们介绍了未标准化回归系数、每变化1个标准差的回归系数、以及标准化回归系数,最后再跟大家补充一下三者之间的相互转换关系。

  每变化1个标准差的回归系数 = 未标准化回归系数 * 该自变量的标准差

  标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 因变量的标准差

  大家可以根据上述转换关系自行进行验证哈。

  哦,对了,细心的同学会发现,在SPSS中多重线性回归可以直接输出标准化回归系数,但是在logistic回归中,SPSS只能输出原始的未标准化的回归系数,如果我们想要计算logistic回归的标准化回归系数,比较不同自变量对因变量的相对作用大小,应该怎么办呢?

  根据上述标准化回归系数的转换关系,在logistic回归中随机变量分布函数的标准差为π / √3 = 1.8138[1],故标准化回归系数 = 未标准化回归系数 * 该自变量的标准差 / 1.8138,即可计算logistic回归的标准化回归系数。

  参考文献

  [1] 宋娜. 多元Logistic分布及其参数估计[D]. 北京工业大学, 2007.

  更多阅读

  1.拿到原始数据就直接统计分析?慢着!听说过数据标准化处理吗?

  2.【合集】75篇SPSS统计操作教程,全在这里!

  3.超详细SPSS操作:多重线性回归(完整版)

  医咖会微信:medieco-ykh

  关注医咖会,轻松学习统计学~

  快加小咖个人微信(xys2018ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。

  点击左下角”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看70种SPSS教程。

查看原文 >>
相关文章