百川智能發佈超千億大模型Baichuan 3，中文評測超越GPT-4

【TechWeb】1月29日消息，百川智能發佈超千億參數的大語言模型Baichuan 3。據介紹，Baichuan 3取得了系列新突破。

其中基礎能力方面，Baichuan 3在CMMLU、GAOKAO和AGI-Eval多個權威通用能力評測中都表現出色，尤其在中文任務上更是超越了GPT-4。在數學和代碼專項評測如MATH、HumanEval和MBPP中Baichuan 3同樣表現出色。

值得注意的是，百川智能對Baichuan 3在醫療領域的能力進行了針對性優化，在對邏輯推理能力及專業性要求極高的MCMLE、MedExam、CMExam等權威醫療評測上的中文效果同樣超過了GPT-4，成爲中文醫療任務表現最佳的大模型。

另外，Baichuan 3還突破“迭代式強化學習”技術，進一步提升了語義理解和生成能力，在詩詞創作的格式、韻律、表意等方面表現優異，領先於其他大模型。

中文任務成績超越GPT-4

Baichuan 3在多個英文評測中表現出色，達到接近GPT-4的水平。而在CMMLU、GAOKAO、HumanEval和MBPP等多箇中文評測榜單上，更是超越GPT-4展現了其在中文任務上的優勢。

此外，在MT-Bench、IFEval等對齊榜單的評測中，Baichuan 3超越了GPT-3.5、Claude等大模型，處於行業領先水平。

據介紹，百川智能在訓練過程中針對性地提出了“動態數據選擇”、“重要度保持”以及“異步CheckPoint存儲”等多種創新技術手段及方案，有效提升了Baicuan 3的各項能力。訓練效率方面， Baichuan 3的訓練框架在性能方面相比業界主流框架提升超過30%。

醫療能力逼近GPT-4

在醫療領域，大模型的全能特性發揮着至關重要的作用。諸如OpenAI、谷歌等頭部大模型企業都將醫療作爲模型的重點訓練方向和性能評價的重要體系。ChatGPT早在2023年2月便已通過了美國醫學執照考試（USMLE），顯示出其在醫學領域的強大能力。而谷歌對醫療領域的重視更甚，基於PaLM模型打造了醫療大模型Med-PaLM，迭代後的Med-PaLM 2在醫學考試 MedQA中的成績超過80分，達到了專家水平。

爲了給Baichuan3注入豐富的醫療知識，百川智能在模型預訓練階段構建了超過千億Token的醫療數據集，包括醫學研究文獻、真實的電子病歷資料、醫學領域的專業書籍和知識庫資源、針對醫療問題的問答資料等。該數據集涵蓋了從理論到實際操作，從基礎理論到臨牀應用等各個方面的醫學知識，確保了模型在醫療領域的專業度和知識深度。

針對醫療知識激發的問題，百川智能在推理階段針對Prompt做了系統性的研究和調優，通過準確的描述任務、恰當的示例樣本選擇，讓模型輸出更加準確以及符合邏輯的推理步驟，Baichuan 3在醫療領域的任務效果提升顯著，在各類中英文醫療測試中的成績提升了2到14個百分點。

Baichuan 3在多個權威醫療評測任務中表現優異，不僅MCMLE、MedExam、CMExam等中文醫療任務的評測成績超過GPT-4，USMLE、MedMCQA等英文醫療任務的評測成績也逼近了GPT-4的水準，是醫療能力最強的中文大模型。

創作精準度提升

另外，百川智能還強調，Baichuan 3突破“迭代式強化學習”技術，進一步提升了語義理解和生成能力，在詩詞創作的格式、韻律、表意等方面表現更優了。

語義理解和文本生成是大模型最基礎的底層能力，爲提升這兩項能力，業界進行了大量探索和實踐，OpenAI、Google以及Anthropic等引入的RLHF(基於人類反饋的強化學習)和RLAIF(基於AI反饋的強化學習)便是其中的關鍵技術。

百川智能採用了RLHF與RLAIF結合的方式來生成高質量優質偏序數據，在數據質量和數據成本之間獲得了更好的平衡。在此基礎上，對於“探索與利用”這一根本挑戰，百川智能通過PPO探索空間與Reward Model評價空間的同步升級，實現“迭代式強化學習”(iterative RLHF&RLAIF)，讓Baichuan 3的語義理解和生成創作能力大幅提升。

百川智能強大，Baichuan 3結合“RLHF&RLAIF”以及迭代式強化學習的方法，讓大模型的詩詞創作能力達到全新高度。可用性相比當前業界最好的模型水平提升達500%，文采遠超GPT-4。以下爲Baichuan 3所寫的兩首詩詞，可以看看：