統計分析前，要做哪些數據準備工作？

摘要：在數據審覈方面，主要考慮的是數據的完整性和合理性，也就是對缺失數據和離羣值進行識別和處理。⑤ 將離羣值視爲缺失數據處理，可以進行數據填補等操作。

作者：高樂 ； 審稿：龔志忠， 張耀文

提到數據分析，首先會想到的可能是t檢驗、迴歸分析等各種具體的分析方法，但對於經歷過完整數據分析的同學來說，最複雜、最耗費時間的步驟往往是數據的清理，也就是將數據整理成爲能夠進行上述統計分析的格式。因此，本節內容我們將對數據的準備進行簡要介紹，重點介紹數據審覈，其次會用少量篇幅簡單介紹數據在進行分析時的適用性。

在數據審覈方面，主要考慮的是數據的完整性和合理性，也就是對缺失數據和離羣值進行識別和處理。

對缺失值的處理

在很多情況下，研究中所收集的數據會出現缺失情況，缺失的類型大致可以分爲以下三種：

① 完全隨機缺失（Missing completely at random，MCAR），數據缺失隨機發生，與自身及其他變量均無關，任何變量的每一條記錄發生缺失的概率相同。例如由於設備故障、樣品運輸丟失等導致的數據缺失，可視爲MCAR[1]。這是最理想的情況，但在許多領域中這種情況並不合理；

② 隨機缺失（Missing at random，MAR），是一種較爲合理的情況。缺失值與自身變量無關，但與其他研究變量相關。假設老師的職稱越高，提供其工資信息的可能性越低，那麼每個職稱分組中可認爲老師工資信息缺失是隨機發生的，可以通過加權的方法進行解決；

③ 非隨機缺失（Missing not at random，MNAR），即缺失值與自身變量有關。例如一項研究中對受教育程度情況進行了調查，受教育程度較低的個體可能存在該變量的缺失，這就是非隨機缺失。

對缺失值最好的處理方法是預防缺失的發生，即通過合理的研究設計、預試驗的開展、調查員培訓等方法儘量保證數據的完整性。但當缺失值不可避免時，就需要通過一些統計學方法對其進行處理：

① 缺失值刪除

(a) 刪除缺失數據行，適用於MCAR數據的處理，在大樣本量且缺失較少的情況下很有效。該方法不會影響結果估計的準確性，但樣本量會因此減小，從而影響結果的精確性；

(b) 刪除缺失變量，適用於存在另一個無缺失的變量能夠代替有缺失變量的情況，通常不建議採用這種方法，因爲“保留數據總比刪除數據好”；

② 缺失值填補

(a) 均值、中位數和衆數填補：根據數據分佈，選擇使用樣本均值、中位數或衆數對缺失值進行填補，沒有考慮時序特徵及變量間關係。該方法較爲簡單，但有明顯缺陷，例如降低了數據方差；

(b) 多重填補：基於貝葉斯方法，創建多個填補數據集，即根據現有觀測數據爲每個缺失數據生成若干個可供填補的數值，結合填補後不同的結果，得出平均估計結果並考察缺失數據的不確定性[2]；

(d) 虛擬變量設置：將是否缺失設置爲虛擬變量，這是處理分類變量缺失較爲簡單的一種方法，但估計精度會下降；

(e) 線性內插法[3]：若缺失值與未缺失值間存在線性關係，根據缺失值的前一個和後一個觀測值對缺失值進行計算；

(f) 臨牀試驗中常用方法[4]：末次觀察前推法（Last observation carried forward，LOCF），前次觀察值後推法（Next observation carried backward，NOCB），基線值後推法（Baseline observation carried forward，BOCF），最差觀測值推進法（Worst observation carried forward，WOCF）和將缺失值視爲治療失敗法（Missing value treated as failure，MVTF）等。

圖1 缺失值處理方法的選擇

對於完全隨機缺失，簡單的刪除缺失數據行就可得到無偏的估計結果；對於隨機缺失，一些複雜的統計方法可能會得到無偏估計結果；而對於非隨機缺失，無法得到無偏估計結果，只能通過複雜的統計方法減小估計值的偏倚。

對離散值的處理

在數據檢查與整理時，通常會發現一些完全偏離其他數據的數值，稱之爲離羣值，產生的原因可能是數據錯誤（測量或記錄錯誤）或真正離羣值，主要分爲單變量離羣值和多變量離羣值。離羣值的識別沒有精確的、能夠稱之爲金標準的方法，通常經過一些統計學方法進行識別。

對單變量離羣值的識別，主要的方法爲直方圖（落在直方圖兩端較遠距離數據）和箱式圖（距離第25百分位數Q1或第75百分位數Q3的距離是四分位數間距IQR的1.5-3倍爲輕度離羣值，距離Q1或Q3的距離大於IQR的3倍爲極端離羣值）[5]。

對多變量離羣值的識別，可通過馬氏距離進行判斷，首先計算一個點到某一數據分佈之間的距離，隨後根據卡方分佈確定臨界值，若某個個體的馬氏距離大於該臨界值，則可認爲是離羣值[6]。

對於離羣值的處理，有以下幾種方法：

① 數據檢查：檢查是否爲客觀失誤造成的數值異常，如果存在數據收集或錄入錯誤，要及時更正；

② 轉換變量：如果能夠確定某一離羣值是正確且真實的，爲避免數據分佈嚴重傾斜，可以對數據進行轉換，這樣不會改變原有數值間的相對大小，但會使數據分佈更爲集中；

③ 刪除數據行：適用於某一個案例出現了多個變量異常的情況，或含有異常值的個體所佔比例很小，可以考慮刪除整條信息；

④ 刪除變量：若多個案例的某一變量均發現異常，可以根據實際情況考慮刪除該變量；

⑤ 將離羣值視爲缺失數據處理，可以進行數據填補等操作；

⑥ 改變數值：若想對離羣值進行保留，可以對其數值進行調整使之更接近均值，也就是說可以設定一個百分位閾值，將超過該百分位範圍的數據替換爲該百分位數值。

數據適用性

不同的統計分析方法對數據有不同的要求，例如正態分佈及方差齊性假設等，因此在分析前，需要對數據進行檢查，來判斷是否符合相應假設，這些假設見下表所示：

數據假設	使用情境	檢驗方法
正態性	t檢驗，方差分析，Person相關性，線性迴歸，其它參數檢驗 [7]	SPSS教程：判斷數據正態分佈的超多方法！
方差同質性	方差分析ANOVA（t 檢驗 and F 檢驗）[8]	Bartlett’s檢驗，Levene’s檢驗，Brown-Forsythe檢驗 [9]
方差齊性	相關和迴歸分析	Breusch-Pagan檢驗 [10]
方差/協方差矩陣的同質性	多元方差分析MANOVA，判別函數分析，多變量回歸 [11]	Box’s M檢驗
球行檢驗	重複測量的ANOVA	Mauchly's檢驗
迴歸同質性	協方差分析ANCOVA	因變量與協變量散點圖，自變量與協變量交互分析（廣義線性模型）
線性相關	線性迴歸分析	散點圖

此外，在進行迴歸分析時，還需要對變量之間的多重共線性進行判斷。當模型中的一個變量可以被其他變量或其他變量的線性組合較好的預測時，就會出現該情況。

多重共線性一般由容忍度和方差膨脹因子（VIF）進行判斷。一般認爲如果容忍度<0.2或VIF>5，則提示變量之間存在多重共線性。一般解決方法有剔除模型中一個或多個預測變量，將模型中多個預測變量整合爲一個複合變量，採用逐步迴歸的方法進行變量篩選，或進行主成分分析。

通常，收集到的數據都會存在各種各樣的問題，爲了得到“乾淨”且適合分析的數據，通常需要經過很多步驟，來達到最終的目的。因此我們要掌握並選擇最適合自己數據的處理方法，來得到更精確的分析結果。

[1] Kang, H. (2013). The prevention and handling of the missing data. Korean journal of anesthesiology, 64(5), 402.

[2] Sterne, J. A., White, I. R., Carlin, J. B., Spratt, M., Royston, P., Kenward, M. G., ... & Carpenter, J. R. (2009). Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ, 338, b2393.

[3] Available at https://www.lexjansen.com/nesug/nesug01/ps/ps8026.pdf.

[4] Available at http://onbiostatistics.blogspot.com/2010/08/locf-bocf-wocf-and-mvtf.html.

[5] Available at http://www.psychwiki.com/wiki/Detecting_Outliers_-_Univariate.

[6] Available at https://en.wikiversity.org/wiki/Multivariate_outlier.

[7] Ghasemi, A., & Zahediasl, S. (2012). Normality tests for statistical analysis: a guide for non-statisticians. International journal of endocrinology and metabolism, 10(2), 486.

[8] Available at https://methods.sagepub.com/reference/encyc-of-research-design/n179.xml.

[9] Available at http://www.math.montana.edu/jobo/st541/sec2e.pdf.

[10] Available at https://en.wikipedia.org/wiki/Homoscedasticity.

[11] Available at http://www.introspective-mode.org/data-assumption-homogeneity-of-variance-covariance/.

由醫咖會與心聯喬治心臟健康研究中心（HHRC）聯合建立的心血管研究協作網絡及數據共享平臺（CDS）已經上線！

目前開放共享的數據爲“中國房顫註冊研究”，共有2.5萬多房顫數據，歡迎來申請使用數據，發表SCI論文！

平臺網址：

統計分析前，要做哪些數據準備工作？

對缺失值的處理

數據適用性

熱門新聞

週熱門

統計分析前，要做哪些數據準備工作？

對缺失值的處理

數據適用性

迷惑！這個論文列出的作者均表示對該論文毫不知情...

大疫之下，上天給人類留下的逃生門

掠奪性期刊上發表的文章，60%從未被引用過

SPSS統計作圖教程：簡單點圖 (Simple dot plot)

早產對人體前半生的影響，先來看看糖尿病風險

迴歸中的多變量、多因素、多重、多元有什麼區別？

僞造臨牀試驗獲利560萬美元，這個造假者或面臨終身監禁！

單樣本分析，統計方法如何選？

一個不尋常的病例：心臟上的繡花針

BMJ：中國研究者最常在週末和深夜投稿

BMJ聖誕特刊來襲：哪科醫生開車易超速、出生月份與死亡率、藝術與死亡率...

重磅！2020 ADA糖尿病診療標準發佈（要點+全文下載）

盤點下2019年那些最奇怪的病例

從一名醫生的角度談談對人工智能的理解

老年糖尿病患者的死亡風險，病程的影響很大

熱門新聞

週熱門