王小川旗下大模型正式發佈：70億參數量，北大清華已用

6月15日，搜狗創始人王小川的新公司百川智能推出了70億參數量的中英文預訓練大模型——baichuan-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發佈。

在構建預訓練語料庫方面，百川智能稱其大模型以高質量中文語料爲基礎，同時融合了優質的英文數據。在數據質量方面，通過質量模型對數據進行打分，對原始數據集進行篇章級和句子級的篩選；在內容多樣性方面，利用自研超大規模局部敏感哈希聚類系統和語義聚類系統，對數據進行了多層次多粒度的聚類，最終構建了包含1.2萬億token的兼顧質量和多樣性的預訓練數據。該公司強調，相較於其他同參數規模的開源中文預訓練模型，baichuan-7B數據量提高了超過50%。

據百川智能介紹，其在萬億優質中英文數據的基礎上，爲了更好地提升訓練效率，baichuan-7B深度整合了模型算子來加快計算流程，並針對任務負載和集羣配置，自適應優化了模型並行策略以及重計算策略。通過高效的訓練過程調度通信，baichuan-7B實現了計算與通信的高效重疊，進而達到了超線性的訓練加速，在千卡集羣上訓練吞吐達到180+Tflops的水平。

通常已有的開源模型窗口長度在2K以內，對於一些長文本建模任務，如需要引入外部知識做搜索增強的場景，更長的處理長度有助於模型在訓練與推理階段捕獲更多的上下文信息，2K的處理長度存在比較大的制約。而百川智能稱baichuan-7B基於高效的attention算子優化實現了萬級別超長動態窗口的擴張能力，本次開源的預訓練模型開放了4K上下文窗口，使模型應用場景更加廣泛。

此外，baichuan-7B還對模型訓練流程進行了深度優化，採用了更科學且穩定的訓練流程和超參數選擇，使得baichuan-7B模型的收斂速度大大提升。

據瞭解，北京大學和清華大學兩所頂尖大學已使用baichuan-7B模型推進相關研究工作，並計劃在未來與百川智能深入合作，共同推動baichuan-7B模型的應用和發展。

今年4月10日，王小川宣佈入場大模型創業，和前搜狗COO茹立雲聯合創立人工智能公司百川智能，旨在開發中國版的OpenAI基礎大模型及顛覆性上層應用。據悉公司早前已獲得5000萬美元啓動資金，來自王小川與其業內好友的個人支持。

王小川旗下大模型正式發佈：70億參數量，北大清華已用

熱門新聞

週熱門

王小川旗下大模型正式發佈：70億參數量，北大清華已用

派盾：黑客詐騙團伙Pink Drainer已將總計1810萬枚DAI質押到Spark中

Pink Drainer地址已向Spark投入總計約1810萬美元的Dynamic代幣

0G Labs宣佈與TheoriqAI合作

中銀國際：上調百度目標價至169.87美元 重申“買入”評級

Vitalik Buterin：OpenAI的GPT-4已通過圖靈測試

Taiko推出多證明者Raiko

黑客詐騙團伙Pink Drainer在竊取超過7500萬美元后宣佈將關閉服務

發生什麼？知名機構看多阿里巴巴 港股盤中一度漲近8%

Pink Drainer惡意項目在一年時間內通過詐騙約2萬名受害者導致損失超7500萬美元

迪麗熱巴出任聯想及moto品牌代言人 AI PC元啓與AI手機齊發售

moto首款AI影像旗艦moto X50 Ultra AI手機發布 售價3999元起

魅族21 Note正式發佈 首發Flyme AI OS 2599起售

Chainlink與DTCC以及全球十大金融機構合作開展Smart NAV行業試點

Maker創始人：PureDai將有自己的治理代幣，初始供應量爲20億

電子煙概念盤中拉昇，朗特智能漲7.01%

熱門新聞

週熱門

中銀國際：上調百度目標價至169.87美元重申“買入”評級

發生什麼？知名機構看多阿里巴巴港股盤中一度漲近8%

moto首款AI影像旗艦moto X50 Ultra AI手機發布售價3999元起

魅族21 Note正式發佈首發Flyme AI OS 2599起售