【原】正確理解臨牀試驗中的風險比（HR）

風險比（HR）通常用於報告腫瘤學隨機臨牀試驗的結果。然而，它們仍然是臨牀醫生最困惑的概念之一。在新型靶向和免疫治療研究進展層出不窮的今天，由於缺乏頭對頭對比，臨牀醫生往往通過間接比較設計相近研究（如ALK一線對比克唑替尼的CROWN、ALEX、ALTA-1L和eXalt-3研究）的HR值以窺療效優劣，因此更需要充分了解HR，以有效解釋醫學文獻，從而做出重要的治療決策。今天，跟大家翻譯分享一篇2011年發表在J Thorac Oncol的經典文獻《What a Clinician Ought to Know: Hazard Ratios》，爲臨牀醫生提供如何適當解釋HR的明確指南。

一、是什麼？

在腫瘤學隨機臨牀試驗（RCT）中，經常使用風險比（HR）來估計至事件發生時間終點的治療效果，如總生存期（OS）和無進展生存期（PFS）。

HR提供了整個研究期間試驗組和對照組之間風險率比值的估計值。而風險率指的是研究中每個治療組在短時間間隔內發生關注事件（包括死亡、繼續監測或停止監測）的患者比例。

這個概念可以通過一個假設的例子來說明：表1所示爲一項有兩個治療組和一個主要終點OS的RCT研究。第一週，對照組的死亡率（0.04）高於試驗組（0.03）。第二週，患者死亡率是第一週的兩倍：對照組爲0.08，試驗組爲0.06。通過將試驗組的患者死亡率除以對照組的患者死亡率，計算每週的HR（試驗組與對照組）。儘管風險率隨時間變化，但每週的HR大致恆定（0.75）（表1）。因此，本RCT報告的HR爲0.75。

HR通常根據腫瘤學RCT中分析生存終點的標準方法之一Cox比例風險模型計算。簡化來說，HR=1意味着試驗和對照處理的等效性（圖1）；如試驗處理（i）優於對照，則HR＜1；如（ii）劣於對照，則HR＞1。

二、爲什麼有用？

對數秩和Wilcoxon檢驗通常用於比較試驗期間治療組之間的整個生存數據，然而僅生成p值而非治療效應幅度或方向的估計值。也就是說，對數秩和Wilcoxon檢驗僅確定治療是否不同，但不表明一種治療的程度優於或劣於另一種。

估計RCT生存結局幅度和方向的三種主要方法包括（i）HR，（ii）報告每個治療組的中位生存期，（iii）時間點分析（如1年OS率），後兩者通常由KM分析生成。然而，HR與其他兩種指標在以下方面存在差異。

首先，HR囊括了整個KM生存曲線中的所有信息，因此總結了RCT整個持續時間內的治療效果。相比之下，中位生存期僅關注治療組生存曲線上的一個點，最多代表“組平均年齡”，作爲個體患者疾病控制持續時間或OS的指標過於簡單。

其次，HR提供了治療組之間相對療效的估計值（例如，OS終點的HR = 0.75，意味着試驗組的死亡風險相比對照組降低約25%）。

第三，由於上述兩種特性，建議基於HR而非中位生存期或特定時間點的生存概率作出優效性和非劣效性聲明。

最後，可以計算校正和未校正的HR。未校正的HR根據單變量Cox比例風險模型計算，而校正的HR通常使用多變量Cox模型進行，即其還包含將校正的協變量，例如年齡、性別、疾病分期和體能狀態。與之相對的是，根據KM生存曲線推導的中位生存期和特定時間點（如1年OS率）的生存概率往往未進行校正。

三、有哪些侷限性？

HR的正確解釋是基於以下假設：研究期間每個時間間隔的風險率比值近似恆定，這也被稱爲“比例風險”（PH）假設。可通過正式的統計檢驗和圖表（例如，Martingale殘差、Schoenfeld殘差與時間的關係圖和log-negative-log plots）來確定PH假設是否成立。然而，通常通過回顧KM生存曲線的形狀來建立假設，因而正式檢驗的結果在文獻中很少報道。

如果曲線之間的分離隨時間維持，則PH假設可能成立（圖3A）。隨着時間的推移，分離度的輕度降低或增加可能輕微違反PH假設（圖3B）。鑑於大多數癌症的生存率較低，如果試驗持續足夠長的時間，KM曲線通常會聚集在一起，因爲晚期癌症通常無法治癒，大多數患者已經死亡或刪失。幸運的是，大多數腫瘤學臨牀試驗產生的KM生存曲線與PH假設相當一致。值得一提的是，還應進行Cox模型的擬合優度評估。

四、如何解釋？

1、適當的解釋

假設一項評價OS的試驗的HR爲0.75，且PH假設成立（圖3A），則可以解釋爲：試驗期間的任何時間點，與對照組相比，試驗組的死亡風險平均降低約25%或生存時間平均改善約33%。請注意，這是平均值（假設生存數據呈指數分佈），因此應在整體KM曲線的背景下解釋此類生存期改善或風險降低。

2、不適當的解釋和常見錯誤

2.1 交叉生存曲線

如果KM曲線嚴重違背PH假設（圖3C），則不適合詮釋總體HR，因爲HR隨時間的變化非常顯著。在這種情況下，應通過亞組分析探討是否存在定性交互作用驅動KM曲線在整個人羣中出現交叉（例如，男性的HR是否方向相反，是否與女性的HR存在統計學顯著差異）。如果發現顯著的定性交互作用，則應分析單個亞組的KM曲線，以確定PH假設在這些子集中是否成立。此外，還應避免對所有隨機化患者人羣的療效聲明。

與任何亞組分析一樣，除非預先規定亞組分析，觀察到統計學顯著的相互作用，並且有充分的確證性證據驗證亞組效應，否則不能在患者亞組內聲稱優效性。

2.2 臨牀意義

HR是相對指標。因此，可以獲得與HR= 0.75相關的具有統計學意義的p值（p < 0.05），這可能意味着（i）試驗治療優於或劣於對照組，或（ii）如果治療之間沒有差異，則最多有5%的機會觀察到該幅度或更極端的效應。

這對患者來說似乎是一個積極的結果，然而是否具有臨牀意義也有待評價。爲此，臨牀醫生需要結合絕對指標尋找具有一致臨牀意義的改善，例如特定時間點的生存概率和中位生存期。

例如，如果HR = 0.75對應晚期NSCLC試驗中治療組之間的1年和2年OS率分別增加10%和20%，可能被認爲是有臨牀意義的改善。如果考慮組間中位生存期差異，則50天的改善也可視爲具有臨牀意義，而約10天的改善可能不具有臨牀意義。只有當描述性絕對指標展現出具有一致臨牀意義的改善，具備統計學意義的HR才被稱爲臨牀進展。

2.3 超出研究持續時間的HR外推

使用RCT報告的HR預測研究持續時間（從第1例患者隨機分配至末次患者訪視）後發生的情況應非常謹慎，通常不推薦使用。在缺乏後續信息的情況下，無法確定比例風險假設是否繼續成立。不僅如此，後續治療或姑息治療也將嚴重影響患者的生存概率。

使用Cox比例風險模型分析RCT生存數據，可提供評估試驗組與對照組相對療效的HR。與臨牀醫學中的其他一切一樣，檢驗統計假設和預估治療效果應始終考慮到是否具有一致的臨牀意義。畢竟，所有這些統計學檢驗只是爲了達到揭示真相和改善患者生活的崇高目標，提供有用的治療，避免不必要的暴露於無效或疑似有效的治療。

參考資料：

Barraclough H, Simms L, Govindan R. Biostatistics primer: what a clinician ought to know: hazard ratios. J Thorac Oncol. 2011 Jun;6(6):978-82. doi: 10.1097/JTO.0b013e31821b10ab. Erratum in: J Thorac Oncol. 2011 Aug;6(8):1454. PMID: 21623277.