免費、SOTA、中文，微軟卷出了新高度

出品 | 虎嗅科技組

作者 | 杜鈺君

碾壓谷歌的Gemini Pro和阿里的Qwen-VL-Plus，與GPT-4V正面硬剛，這個有着SOTA級別性能的多模態大模型真正做到了“人無我有，人有我優”。

繼2023年4月的初級版本、2023年10月的LLaVA-1.5之後，2024年1月31日，微軟研究院又聯合威斯康星大學麥迪遜分校和哥倫比亞大學的研究者共同發佈了多模態大模型LLaVa（Large Language and Vision Assistant）的1.6版本。與GPT-4V只提供API接口的閉源經營理念不同，LLaVA1.6的代碼、模型與訓練數據全開源，且在標準評測數據集上跑出了較爲亮眼的成績。

一、LLaVA1.6：捲上加捲

LLaVA是一種端到端訓練的大型多模態模型，又被稱爲“大型語言和視覺助手”。LLaVa-1.6是微軟LLaVa系列的第三個迭代版本。升級後的LLaVa-1.6可謂buff疊滿：SOTA級別的性能，低訓練花銷，多模態的內容生成能力和再一次將開源大模型捲上了新高度。

根據LLaVa-1.6官網的標準評測數據集，該模型的表現超越了Qwen-VL-Plus、CogVLM和Yi-VL等一衆模型，在大部分數據集上的表現都優於Gemini Pro，在Math-Vista、MMB-ENG等部分數據集上的表現甚至勝於GPT-4V，成爲了開源模型中的“性能王者“。

圖片來源：LLaVA-1.6官網的標準評測數據

在不拘泥於單一模態的內容生成，具有Text-to-Text和Image-to-Text兩種模式的同時，LLaVa-1.6的過人之處還在於更低的訓練數據成本。LLaVA-1.6能用32個GPU在一天之內完成訓練，僅需1.3M條訓練數據，其計算和訓練數據比其他模型小100到1000倍。

除了通過對話式AI生成文本外，LLaVA-1.6還可以識別圖片信息並轉化成文字答案。升級後的LLaVa-1.6對輸入圖像的分辨率提升到原來的4倍以上，使得模型能夠抓住圖片的更多細節。目前支持的圖像分辨率有672x672、336x1344以及1344x336三種。

LLaVA模型架構基於大量的圖像-文本配對的數據集，將預訓練的CLIP視覺編碼器與大型語言模型（Vicuna）通過映射矩陣相連接，來實現視覺和語言特徵的匹配。根據該模型的研發團隊成員Haotian Liu在X平臺的介紹，此增強版本建立在其前身的簡約設計和數據效率基礎上，並通過改進視覺指令數據集和SGLang，提升了“推理、OCR等方面的性能”，意味着人類向AGI（通用人工智能）探索的道路上又邁進了一步。