MURA：斯坦福ML團隊開放的大型放射影像數據集與挑戰賽

近日，吳恩達及斯坦福 ML 團隊開放一項骨骼醫療影像的競賽，它利用去年 12 月開放的 MURA 數據集嘗試在骨骼影像上達到放射科醫生的水平。此外，MURA 是最大的開放性放射影像數據集之一，它有助於診斷上肢骨骼疾病。

什麼是 MURA？

MURA（肌骨骼放射影像）是骨骼 X 射線的大型數據集，算法的任務是確定一張 X 射線影像是正常還是異常。

肌骨骼（Musculoskeletal）疾病在全世界上影響了 1.7 億人，是嚴重長期疼痛與疾病的最常見成因，且每年有 3 千萬的急診部就診。研究者希望該數據集能幫助醫療影像技術取得顯著的進步，且能達到人類專家的診斷水平，從而提升放射科醫生的工作效率與放射科的醫療條件。

MURA 是最大的開放放射影像數據集之一，研究者將該數據集提供給社區來舉辦對應的競賽，因而能瞭解模型在醫學影像上能不能做得更好。

MURA 使用一個隱藏的測試數據集以官方評估模型的性能。參賽團隊可在 Codalab 上提交可執行代碼，並在非公開的測試數據集上運行，這樣的流程基本能保證測試結果的公平性。下面地址展示了 MURA 的提交與評估過程，只要模型經過官方的評估，測試分數就會顯示在排行榜中。

MURA 提交教程：https://worksheets.codalab.org/worksheets/0x42dda565716a4ee08d61f0a23656d8c0/

MURA 是如何收集數據的？

MURA 是肌骨骼放射照片的數據集，它包含了 12173 名患者共計 14863 份研究，共有 40561 份多視圖放射影像。每一份都屬於 7 種標準上肢放射學研究類型之一，即手指、手肘、前臂、手、肱骨、肩膀和手腕。每一份研究都由斯坦福醫學院董事會認證的放射科醫生手動標記爲正常或異常，這些標註都是 2001 年到 2012 年根據放射診斷學對臨牀醫學影像的解釋而完成的。

爲了評估模型並獲得放射科醫生水平的魯棒性估計，研究者從 6 名經認證的斯坦福放射科醫生收集額外的標籤，其中包括 207 份肌骨骼研究。放射科醫生平均有 8.32 年的從業經驗，從業年限的範圍從 2 到 25。研究者隨機選擇 3 個放射科醫生構建黃金準則，該準則定義爲大多數放射科醫生投票的標籤。

基線模型是什麼？

MURA 的基線使用一個 169 層的卷積神經網絡來檢測和定位異常症狀。模型取某項研究中的上肢的一個或多個視圖的照片爲輸入。在每個視圖中，該網絡對異常概率進行預測。研究者通過取每張照片的網絡輸出異常概率的算術平均來計算該研究中的總體異常概率。當該研究中的異常概率超過 0.5 時，模型做出異常的二值預測。

網絡使用密集連接卷積神經網絡架構，其中每個層和其它所有層都有前向連接，從而使深度網絡優化更容易進行。研究者將應用一個 sigmoid 非線性層之後的單個輸出替換了最後的全連接層。他們使用類別激活圖（Class Activation Map）來可視化放射照片的對模型異常預測貢獻最大的部分。

該基線表現如何？

研究者在 Cohen 的 Kappa 統計上評估了該基線，Kappa 統計表達了模型和黃金標準的匹配程度。基線將和放射專家在手指、手腕研究的異常檢測上進行性能對比。然而，基線在檢測手肘、前臂、手、肱骨、肩膀的異常檢測中的性能要稍微低於最好的放射專家，表明該任務爲未來研究提供了很好的挑戰性問題。

論文：MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs.

論文地址：https://arxiv.org/abs/1712.06957v2

摘要：我們在本文中介紹 MURA，這是一個肌肉骨骼射線照片的大規模數據集，包含 40895 張來自 14982 項研究的照片，其中每項研究的照片都是由放射專家手動標記（正常或異常）。在這個數據集上，我們訓練了一個 169 層的密集連接的卷積網絡來檢測和定位異常症狀。六位有專科醫師資格的放射專家爲 209 項研究構成的測試集提供了額外標記，我們在其上對比了模型和放射專家的診斷表現，發現我們的模型能達到和那些放射專家相當的性能。在對於手指、手和手腕的研究照片上，我們模型的 F1 分數要稍微高於放射專家，但在統計上並不顯著；在對於手肘、前臂、肱骨和肩膀的研究照片上，我們模型的 F1 分數要稍微低於放射專家，但在統計上也不顯著；預示着該數據集爲未來研究提供了很好的挑戰性問題。