我們在進行臨牀研究時,通常會收集大量不同的指標變量,每個指標的性質、量綱、數量級等特徵,均存在一定的差異。針對涉及多個不同指標綜合起來的評價模型,由於各個指標的屬性不同,無法直接在不同指標之間進行比較和綜合。

例如,假設各個指標之間的水平相差很大,此時直接使用原始指標進行分析時,數值較大的指標,在評價模型中的絕對作用就會顯得較爲突出和重要,而數值較小的指標,其作用則可能就會顯得微不足道。

因此,爲了統一比較的標準,保證結果的可靠性,我們在分析數據之前,需要對原始變量進行一定的處理,即我們本期內容將向大家介紹的數據的標準化處理,將原始數據轉化爲無量綱、無數量級差異的標準化數值,消除不同指標之間因屬性不同而帶來的影響,從而使結果更具有可比性

數據的標準化

數據的標準化,是通過一定的數學變換方式,將原始數據按照一定的比例進行轉換,使之落入到一個小的特定區間內,例如0~1或-1~1的區間內,消除不同變量之間性質、量綱、數量級等特徵屬性的差異,將其轉化爲一個無量綱的相對數值,也就是標準化數值,使各指標的數值都處於同一個數量級別上,從而便於不同單位或數量級的指標能夠進行綜合分析和比較。

數據標準化處理的類型

數據標準化處理主要包括指標一致化處理和無量綱化處理兩種類型。

一、指標一致化處理

指標一致化處理,主要解決的是數據之間不同性質的問題。例如我們在評價多個不同指標的作用時,某一類指標,數值越大越好,我們稱之爲正指標,例如診斷符合率、病牀平均週轉次數等指標;

另有一類指標,數值越小越好,我們稱之爲逆指標,例如平均住院日、圍產期嬰兒死亡率等指標。

在這種情況下,如果同時評價這兩類指標的綜合作用,由於他們的作用方向不同,將不同性質的指標作用直接相加,並不能正確反映不同作用方向產生的綜合結果,此時我們就需要對逆指標進行一致化處理,改變逆指標的性質和作用方向,使所有指標作用方向一致化,從而得出適宜的結果。

針對逆指標一致化處理的方法主要有兩種:

1、倒數一致化,即對原始數據取倒數,X’ = 1 / x(x>0)

2、減法一致化,即利用該指標允許範圍內的一個上界值(M),依次減去每一個原始數據,X’ = M - x

注意:倒數一致化常常會改變原始數據的分散程度,這種改變會誇大或縮小原始數據的實際差異,對於進行綜合評價是不利的。而減法一致化則不改變數據的分散程度,因此結果較倒數一致化而言會更加穩定。

二、無量綱化處理

數據無量綱化處理,主要解決數據之間可比性的問題,這也是我們對數據進行標準化處理的最主要的一個目的。

在實際的應用中,由於不同變量自身的量綱不同,數量級存在較大差異,在進行綜合評價時,不同變量所佔的作用比重也會有所不同。例如,某個變量的數值在1-10之間,而另一個變量的數值範圍在100-1000之間,此時若進行綜合評價,從數值的角度,很有可能數值變化範圍大的變量,它的絕對作用就會較大,所佔的比重較大。

因此,爲了消除量綱、變量自身變異和數值大小的影響,比較不同變量之間的相對作用,就需要對數據進行無量綱化處理,將其轉化爲無量綱的純數值來進行評價和比較。

常用的數據標準化方法

一、極差標準化法

極差標準化法,是消除變量量綱和變異範圍影響最簡單的方法。

具體的操作方法爲:首先需要找出該指標的最大值(Xmax)和最小值(Xmin),並計算極差(R = Xmax- Xmin),然後用該變量的每一個觀察值(X)減去最小值(Xmin),再除以極差(R),即:

X’ = (X-Xmin) / (Xmax-Xmin)

經過極差標準化方法處理後,無論原始數據是正值還是負值,該變量各個觀察值的數值變化範圍都滿足0≤X’≤1,並且正指標、逆指標均可轉化爲正向指標,作用方向一致。但是如果有新數據加入,就可能會導致最大值(Xmax)和最小值(Xmin)發生變化,就需要進行重新定義,並重新計算極差(R)。

二、Z-score標準化法

當我們遇到某個指標的最大值和最小值未知的情況時,或者有超出取值範圍的離羣數值的時候,就不再適宜計算極差了,此時我們可以採用另一種數據標準化最常用的方法,即Z-score標準化,也叫標準差標準化法

具體的操作方法爲

經過Z-score標準化後,數據將符合標準正態分佈,即將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變量的均值爲0,標準差爲1,變化範圍爲-1≤X’≤1。

在SPSS中,默認的標準化方法就是Z-score標準化法。操作步驟如下:

1.Analyze → Descriptive Statistics → Descriptives

2.將需要標準化的變量Y選入Variable(s)框中,並勾選Save standardized values as variables,點擊OK完成

3.變量列表中生成一列新變量ZY,即Zscore(Y),也就是經過Z-score標準化轉化後生成的新變量。

三、線性比例標準化法

1、極大化法

對於正指標,取該指標的最大值Xmax,然後用該變量的每一個觀察值除以最大值,即:X’=X / Xmax。(X≥0)

2、極小化法

對於逆指標,取該指標的最小值Xmin,然後用該變量的最小值除以每一個觀察值,即:X’ = Xmin / X。(X>0)

注意,以上兩種方法不適用於X

四、log函數標準化法

首先對該變量的每一個觀察值取以10爲底的log值,然後再除以該指標最大值(Xmax)的log值,即:

X’=log10X / log10Xmax

注意,此方法要求X≥1。

五、反正切函數標準化法

通過三角函數中的反正切函數(arctan)也可以實現數據的標準化轉換,計算方法如下:

X’ = arctan(X)*2 / π

注意,如果原始數據爲正、負實數,則標準化後的數據區間爲-1≤X’≤1,若要得到0≤X’≤1區間,則原始數據應該保證X≥0。

當然,數據標準化的處理還有其他方法,最常用的還是前兩種:極差標準化法和Z-score標準化法。

更多閱讀

1. 論文中統計描述要注意的諸多細節,聽聽雜誌主編怎麼說!

2. 怎麼發現我數據中存在的特異值?教你幾招!

3. 【合集】75篇SPSS統計操作教程,全在這裏!

醫咖會微信:medieco-ykh

關注醫咖會,輕鬆學習統計學~

快加小咖個人微信(xys2018ykf),拉你進統計討論羣和衆多熱愛研究的小夥伴們一起交流學習。

點擊左下角“閱讀原文”,看看醫咖會既往推送了哪些統計教程。或者使用電腦打開網址:https://www.mediecogroup.com/,查看70種SPSS教程。

查看原文 >>
相關文章