Odaily星球日報訊 在 WWDC24 之前,蘋果在 Hugging Face 平臺上發佈了一個“具有開源訓練和推理框架的高效語言模型”,名爲 OpenELM。這是一項開源語言模型,其源碼及預訓練的模型權重和訓練配方可在蘋果 Github 庫中獲取。 據介紹,OpenELM 使用分層縮放策略,可以有效地分配 Transformer 模型每一層的參數,從而提高準確率。例如,在參數量約爲 10 億的情況下,OpenELM 與 OLMo 相比準確率提升了 2.36%,同時所需的預訓練 tokens 數量僅有原來的 50%。 與以往只提供模型權重和推理代碼並在私有數據集上進行預訓練的做法不同,蘋果公司發佈的版本包含了在公開數據集上訓練和評估語言模型的完整框架,包括訓練日誌、多個檢查點和預訓練配置。 此外其還發布了將模型轉換爲 MLX 庫的代碼,以便在蘋果設備上進行推理和微調。此次全面發佈旨在增強和鞏固開放研究社區,爲未來的開放研究工作鋪平道路。(IT 之家)
相關文章