6月15日,搜狗創始人王小川的新公司百川智能推出了70億參數量的中英文預訓練大模型——baichuan-7B目前baichuan-7B大模型已在Hugging FaceGithub以及Model Scope平臺發佈。

在構建預訓練語料庫方面,百川智能稱其大模型以高質量中文語料爲基礎,同時融合了優質的英文數據。在數據質量方面,通過質量模型對數據進行打分,對原始數據集進行篇章級和句子級的篩選;在內容多樣性方面,利用自研超大規模局部敏感哈希聚類系統和語義聚類系統,對數據進行了多層次多粒度的聚類,最終構建了包含1.2萬億token的兼顧質量和多樣性的預訓練數據。該公司強調,相較於其他同參數規模的開源中文預訓練模型,baichuan-7B數據量提高了超過50%。

百川智能介紹,其在萬億優質中英文數據的基礎上,爲了更好地提升訓練效率,baichuan-7B深度整合了模型算子來加快計算流程,並針對任務負載和集羣配置,自適應優化了模型並行策略以及重計算策略。通過高效的訓練過程調度通信,baichuan-7B實現了計算與通信的高效重疊,進而達到了超線性的訓練加速,在千卡集羣上訓練吞吐達到180+Tflops的水平

通常已有的開源模型窗口長度在2K以內,對於一些長文本建模任務,如需要引入外部知識做搜索增強的場景,更長的處理長度有助於模型在訓練與推理階段捕獲更多的上下文信息,2K的處理長度存在比較大的制約。而百川智能稱baichuan-7B基於高效的attention算子優化實現了萬級別超長動態窗口的擴張能力,本次開源的預訓練模型開放了4K上下文窗口,使模型應用場景更加廣泛。

此外,baichuan-7B對模型訓練流程進行了深度優化,採用了更科學且穩定的訓練流程和超參數選擇,使得baichuan-7B模型的收斂速度大大提升。

據瞭解,北京大學和清華大學兩所頂尖大學已使用baichuan-7B模型推進相關研究工作,並計劃在未來與百川智能深入合作,共同推動baichuan-7B模型的應用和發展。

今年4月10日,王小川宣佈入場大模型創業,和前搜狗COO茹立雲聯合創立人工智能公司百川智能,旨在開發中國版的OpenAI基礎大模型及顛覆性上層應用。據悉公司早前已獲得5000萬美元啓動資金,來自王小川與其業內好友的個人支持。

相關文章