拿到原始數據就直接統計分析？慢着！聽說過數據標準化處理嗎？

我們在進行臨牀研究時，通常會收集大量不同的指標變量，每個指標的性質、量綱、數量級等特徵，均存在一定的差異。針對涉及多個不同指標綜合起來的評價模型，由於各個指標的屬性不同，無法直接在不同指標之間進行比較和綜合。

例如，假設各個指標之間的水平相差很大，此時直接使用原始指標進行分析時，數值較大的指標，在評價模型中的絕對作用就會顯得較爲突出和重要，而數值較小的指標，其作用則可能就會顯得微不足道。

因此，爲了統一比較的標準，保證結果的可靠性，我們在分析數據之前，需要對原始變量進行一定的處理，即我們本期內容將向大家介紹的數據的標準化處理，將原始數據轉化爲無量綱、無數量級差異的標準化數值，消除不同指標之間因屬性不同而帶來的影響，從而使結果更具有可比性。

數據的標準化

數據的標準化，是通過一定的數學變換方式，將原始數據按照一定的比例進行轉換，使之落入到一個小的特定區間內，例如0~1或-1~1的區間內，消除不同變量之間性質、量綱、數量級等特徵屬性的差異，將其轉化爲一個無量綱的相對數值，也就是標準化數值，使各指標的數值都處於同一個數量級別上，從而便於不同單位或數量級的指標能夠進行綜合分析和比較。

數據標準化處理的類型

數據標準化處理主要包括指標一致化處理和無量綱化處理兩種類型。

一、指標一致化處理

指標一致化處理，主要解決的是數據之間不同性質的問題。例如我們在評價多個不同指標的作用時，某一類指標，數值越大越好，我們稱之爲正指標，例如診斷符合率、病牀平均週轉次數等指標；

另有一類指標，數值越小越好，我們稱之爲逆指標，例如平均住院日、圍產期嬰兒死亡率等指標。

在這種情況下，如果同時評價這兩類指標的綜合作用，由於他們的作用方向不同，將不同性質的指標作用直接相加，並不能正確反映不同作用方向產生的綜合結果，此時我們就需要對逆指標進行一致化處理，改變逆指標的性質和作用方向，使所有指標作用方向一致化，從而得出適宜的結果。

針對逆指標一致化處理的方法主要有兩種：

1、倒數一致化，即對原始數據取倒數，X’ = 1 / x（x>0）

2、減法一致化，即利用該指標允許範圍內的一個上界值（M），依次減去每一個原始數據，X’ = M - x

注意：倒數一致化常常會改變原始數據的分散程度，這種改變會誇大或縮小原始數據的實際差異，對於進行綜合評價是不利的。而減法一致化則不改變數據的分散程度，因此結果較倒數一致化而言會更加穩定。

二、無量綱化處理

數據無量綱化處理，主要解決數據之間可比性的問題，這也是我們對數據進行標準化處理的最主要的一個目的。

在實際的應用中，由於不同變量自身的量綱不同，數量級存在較大差異，在進行綜合評價時，不同變量所佔的作用比重也會有所不同。例如，某個變量的數值在1-10之間，而另一個變量的數值範圍在100-1000之間，此時若進行綜合評價，從數值的角度，很有可能數值變化範圍大的變量，它的絕對作用就會較大，所佔的比重較大。

因此，爲了消除量綱、變量自身變異和數值大小的影響，比較不同變量之間的相對作用，就需要對數據進行無量綱化處理，將其轉化爲無量綱的純數值來進行評價和比較。

常用的數據標準化方法

一、極差標準化法

極差標準化法，是消除變量量綱和變異範圍影響最簡單的方法。

具體的操作方法爲：首先需要找出該指標的最大值（Xmax）和最小值（Xmin），並計算極差（R = Xmax- Xmin），然後用該變量的每一個觀察值（X）減去最小值（Xmin），再除以極差（R），即：

X’ = (X-Xmin) / (Xmax-Xmin)

經過極差標準化方法處理後，無論原始數據是正值還是負值，該變量各個觀察值的數值變化範圍都滿足0≤X’≤1，並且正指標、逆指標均可轉化爲正向指標，作用方向一致。但是如果有新數據加入，就可能會導致最大值（Xmax）和最小值（Xmin）發生變化，就需要進行重新定義，並重新計算極差（R）。

二、Z-score標準化法

當我們遇到某個指標的最大值和最小值未知的情況時，或者有超出取值範圍的離羣數值的時候，就不再適宜計算極差了，此時我們可以採用另一種數據標準化最常用的方法，即Z-score標準化，也叫標準差標準化法。

具體的操作方法爲：