我們在前期介紹Framingham Heart Study的文章中《歷經70年,發文3000多篇,致敬如此偉大的研究!》,提到Framingham Heart Study在探討疾病危險因素和構建風險預測模型方面,做出了很大的貢獻。

其中1998年Framingham Heart Study發表了一個經典的冠心病10年風險預測評分工具,該風險函數成爲美國國家膽固醇教育計劃(NCEP)成人治療方案(Adult Treatment Panel,ATP)計算冠心病風險的基礎。

該模型不再使用原有的連續變量形式,而是將危險因素進行分層,對每一分層進行量化賦分,最後通過計算總分來對患者進行疾病風險評估,評分工具不僅有助於患者理解,也能夠在臨牀中得到較好的推廣應用。

如果說只是單純的構建疾病風險預測模型,相信大家應該都比較熟悉,至少大家也都用過Logistic迴歸、Cox迴歸等這些常用的迴歸模型。但是如何將自己構建的預測模型轉化爲風險評分工具,似乎成了一個難題。

今天小咖就以多因素Logistic迴歸模型爲例,給大家逐步解密,教會大家也能做出這種高大上的疾病評分工具。

研究實例

我們仍以Framingham Heart Study爲例來進行說明,研究共納入9443名健康人羣,年齡爲30-79歲,對研究對象隨訪5年,觀察他們冠心病硬終點的發病情況,包括心肌梗死、死亡。

假定我們要考慮的主要危險因素包括:年齡、性別、收縮壓、吸菸,研究人羣各個危險因素的分佈情況如下表所示,我們在此研究的基礎上來製作疾病風險評分工具。

步驟

1. 構建多因素Logistic迴歸模型

通過構建多因素Logistic迴歸模型,將我們主要考慮的危險因素納入到迴歸模型中,從而估計各個危險因素的迴歸係數β,OR值及其95% CI,迴歸結果如下表所示。

2. 將各個危險因素進行分類,並指定每組的參考值Wij

我們按照臨牀意義或使用習慣將各個危險因素進行分組,並在每個分組中選擇合適的數值作爲參考值Wij,通常選擇組內的中間值作爲參考值。

例如在本例中,研究人羣的年齡範圍爲30-79歲,通常我們按照10歲一個年齡段來進行劃分,將其分爲5組,每組選擇中間值爲參考值Wij,例如30-39歲這一組的參考值Wij爲(30+39) / 2 = 34.5。

本研究中血壓的範圍爲78-240mmHg,我們按照高血壓指南的診斷切點來進行劃分,每10mmHg爲一組,共分爲5組,每組選擇中間值爲參考值Wij。但這裏需要注意的是,第一組(

通常我們選擇第1百分位和第99百分位的數值來輔助進行計算,在本研究中收縮壓第1百分位和第99百分位的數值分別爲94mmHg和190mmHg,因此第一組的參考值Wij爲(94+120) / 2=107,最後一組的參考值Wij爲(160+190) / 2 = 175。

對於分類變量,如性別,此時我們可以設置女性爲參照,即參考值Wij爲0,那麼男性就自然賦值爲1,同理,不吸菸設置爲0,吸菸爲1。

3. 確定各個危險因素的基礎分險參考值WiREF

對於每一個危險因素,我們需要選擇一個合適的分組來作爲基礎風險參考值WiREF,在後續構建評分工具時,該組分值將記爲0分,危險因素的值高於WiREF時記正分,得分越高則風險越高,相反低於WiREF時記負分。

在本研究中,我們選擇年齡30-39歲、女性、血壓120-129mmHg和不吸菸對應的參考值Wij,作爲每個危險因素的基礎風險參考值WiREF

4. 計算每一個危險因素的分組與基礎風險參考值之間的距離D

結合多因素Logistic迴歸模型估計的迴歸係數βi,以及危險因素各組的參考值Wij,來計算危險因素的每一分組與基礎風險參考值WiREF之間的距離D,計算公式爲D = (Wij-WiREF)*βi

例如在本研究中,年齡的基礎風險參考值WiREF爲34.5,年齡在Logistic迴歸中對應的迴歸係數βi爲0.0575,那麼對於70-79歲組,其參考值Wij爲74.5,該組與基礎風險參考值的距離即爲(74.5-34.5)*0.0575=2.3000。

同理,其他危險因素也按照上述公式計算每個分組到基礎風險參考值的距離D。

5. 設定評分工具中1分對應的常數B

我們需要設定評分工具中每記1分時,對應的各個危險因素變化的常數。例如本例中,如果設定年齡每增加5歲時記爲1分,那麼此時常數B = 5*βi  = 5*0.0575 = 0.2875。

6. 計算危險因素每個分類對應的分值Pointsij

在第5步確定常數B的基礎上,計算危險因素每一個分類所對應的分值,計算公式爲Pointsij= D/B = (Wij-WiREF) * βi/B,最後將計算出來的數值四捨五入取整,即爲該組對應的分值。

例如本研究中收縮壓≥160組,其計算的分值爲0.8325/0.2875=2.8957,四捨五入取整爲3分。

7. 計算總分與風險預測概率的對應表

根據第6步的結果,將每個危險因素的分值相加起來計算總分,理論上每個危險因素取最低值時,可以得到總分最低值爲0+0+(-1)+0= -1,同理可得到總分最高值爲8+5+3+3=19,因此總分的範圍爲:-1~19分。

然後再根據多因素logistic迴歸模型的方程,來計算每一分值對應的風險預測概率值,計算公式如下:

以此類推,即可算出總分與風險預測概率的對應表,如下表所示。

至此,一個基於多因素Logistic迴歸模型構建疾病風險預測的評分工具就已經做好了,是不是感覺又get了一項高大上的技能呢!雖然看上去步驟有點多,過程有點複雜,但是如果按照小咖講的一步一步做下來,相信這麼聰明的你一定不會被難倒的。

評分工具

與Logistic迴歸模型結果比較

風險評分工具已經新鮮出爐,爲了進一步驗證它的準確性,我們舉一個實例,來比較一下評分工具與原始Logistic迴歸模型預測結果之間的差距。

假設有一位男性患者,75歲,收縮壓150mmHg,否認吸菸,來預測他未來5年冠心病的發生風險。

首先,我們根據評分工具裏各個危險因素的分值,分別記爲5、8、2和0分,總分爲15分,查表對應的風險概率爲12.93%。

然後,我們再根據多因素logistic迴歸模型進行一次計算:

可以看出,評分工具與Logistic迴歸模型預測結果之間僅僅只相差2%,足夠滿足疾病風險預測評估的要求,而且應用起來也很直觀和便捷。

本期我們以多因素Logistic迴歸模型爲例對評分工具進行了介紹,先留給大家慢慢消化一下。往往在很多時候,我們在研究中還應考慮事件發生的時間因素,需要用Cox迴歸來構建疾病預測模型,此時又該如何將其轉化爲風險評估工具呢?小咖會在後續的內容中來向大家繼續進行講解。

更多閱讀

1. 歷經70年,發文3000多篇,致敬如此偉大的研究!

2. 你的預測模型靠譜嗎?詳解區分度和校準度的SPSS操作!

3.【合集】8篇權威的疾病統計報告(全球或中國數據)

醫咖會微信:medieco-ykh

關注醫咖會,提升臨牀研究水平~

快加小咖個人微信(xys2018ykf),拉你進統計討論羣和衆多熱愛研究的小夥伴們一起交流學習。

點擊左下角“閱讀原文”,看看醫咖會既往推送了哪些統計教程。或者使用電腦打開網址:https://www.mediecogroup.com/,查看70種SPSS教程。

查看原文 >>
相關文章