醫療GPT來了如何破解語料稀缺瓶頸？

華佗GPT通過從ChatGPT中提取“蒸餾數據”，並結合真實世界醫生回覆的數據，從而試圖訓練出具備像醫生一樣診斷能力的大型語言模型。

在醫療領域，大型語言模型（LLM）具有廣闊的應用潛力。然而，目前類似ChatGPT這樣的語言模型在回答患者描述症狀時，仍然缺乏精確的專業解讀，與醫生差距較大。其中很大一部分原因在於訓練大模型的數據仍有侷限性。

針對這一痛點，香港中文大學（深圳）和深圳市大數據研究院王本友教授團隊利用指令微調和強化學習的方法，在ChatGPT和醫生的回覆中找到結合點，訓練並開源了一個新的醫療大模型華佗GPT（HuatuoGPT）。通過從ChatGPT中提取的“蒸餾數據”，並結合真實世界醫生回覆的數據，從而試圖訓練出具備像醫生一樣診斷能力的大型語言模型。

只提取大模型中的特定數據，這在專業上被稱爲“數據蒸餾”。“這種方法既保留真實醫療數據的專業性和準確性，又藉助ChatGPT的多樣性和內容豐富性的特點，結合兩者的混合反饋進行優化，可以與用戶保持流暢的交互。”研究團隊表示。

另據介紹，在多輪問診場景中，團隊成員收集了涵蓋20個科室的100個多輪對話進行評估。結果顯示，華佗GPT在處理更加複雜的多輪問診場景中的表現優異，在某些性能方面甚至超過GPT3.5。

第一財經記者嘗試使用華佗GPT，在問診中輸入：糖尿病的症狀有哪些？華佗GPT的回答比較全面；記者又反過來輸入糖尿病的某些症狀，問是什麼疾病？但華佗GPT的回答較爲寬泛，答：可能是由多種原因造成的。

“這至少能說明，這個大模型已經擁有了部分疾病譜的語料，例如糖尿病。”一位專注於醫療大模型開發的研究人員對第一財經記者分析稱。

他同時指出，醫療領域的數據相對來說較爲稀缺，主要由醫院掌握，技術公司要獲得醫療數據“門檻很高”。“如果把大模型看作是人，語料就是麪包，數據就是麪粉。”他說道，“語料越豐富，模型也就越強大。”

針對醫療語料缺乏的問題，業內已經開始尋求解決方案。近日，在天橋腦科學研究院（TCCI）主辦的一場“面向AI模型的數據生成方法及其對醫療領域的啓示”論壇上，研究人員探討了被稱爲“自對話”和“自蒸餾”的訓練，可以快速構建專屬的大模型。

美國加州大學聖迭戈分校博士生許燦文和中山大學團隊的合作者提出一種能自動生成高質量多輪聊天語料庫的流程，他們利用ChatGPT與其自身進行對話，生成對話數據，再基於產生的對話數據調優，增強開源的大型語言模型LLaMA，獲得了高質量的醫療專屬模型“白澤”。

許燦文向第一財經記者介紹道，“白澤”在這個過程中並沒有學會新的知識，只提取了大模型中的特定數據，並且保留了ChatGPT分點作答的語言能力。通過自動化的“數據蒸餾”，在特定領域能夠達到ChatGPT的能力，但成本卻遠遠低於ChatGPT，兼具經濟意義和實用意義。尤其是在醫療領域，本地化或私有化建構的模型有助於消除隱私顧慮，輔助患者診療。

美國萊斯大學博士生唐瑞祥與合作者提出另一種新策略，即利用大型模型生成大量醫療數據，再通過小型模型對這些數據進行訓練。實驗結果顯示，相較於直接利用大型模型執行下游任務，這一新策略能夠取得更出色的效果。同時由於模型數據在本地，這也大幅降低了潛在的隱私風險。

展望未來，業內普遍認爲，醫療大模型一方面是要具備廣泛的適應性和泛化能力；另一方面是需要從特定任務出發，進一步精細化地處理。

上海交大博士生曹瑞升在TCCI論壇上表示：“在醫療領域，大模型應該能夠做到可以針對特定類型的疾病，例如抑鬱症進行專業化的任務處理，並提供更加精準和個性化的解決方案。而最終，數據生成和模型訓練的過程將從分離走向融合。”

責任編輯：劉萬里 SF014