台湾 || 语言: 大陆简体港澳繁體台灣正體

OpenAI最新大模型曝光：劍指多模態，GPT-4之後最大升級

量子位 2023-09-19 16:16

來源：量子位

大模型之爭，又捲起來了。

據The information爆料稱，OpenAI即將推出多模態模型GPT-vision。

如果消息爲真，這將是OpenAI在GPT-4之後推出的最大更新。

另一邊，谷歌的多模態模型進展也在最近傳出，爲的就是能和OpenAI抗衡。

目前爲止，OpenAI還沒有對爆料中的傳聞做出回應，但此前發佈過多模態模型測試。

CEO奧特曼在回應有關GPT-5的傳聞時，也暗示過GPT-4“正在增強”。

究竟誰能更勝一籌，還得讓子彈再飛一會兒。

不能讓Google搶了先

我們先回到OpenAI，被爆料的多模態模型將搭載什麼樣的功能呢？

首先是圖像內容識別，比如根據手繪草圖生成網頁代碼、輸出可視化圖表的文本分析等。

另一方面則是圖像生成，通過簡單的文本生成繪畫、logo或表情包。

雖然OpenAI沒有對這次的爆料做出回應，但做多模態模型這件事本身只是個時間問題。

3月份，OpenAI在發佈GPT-4時，就曾推出了一個多模態GPT的預覽版本。

當時，OpenAI把DEMO提供給了研究幫助視障羣體的機構Be My Eyes。

除了這家機構之外，就再也沒有人見過OpenAI的多模態模型是什麼樣子了。

在此之後，這個多模態模型更是杳無音訊。

唯一和圖像有點關係的，就是GPT-4的升級版代碼解釋器（後改名爲高級數據分析）可以處理一些圖片任務。

但這是通過調用Python庫實現的，而且也達不到AI中圖像識別的程度，和多模態模型更是不沾邊了。

有說法稱GPT-vision遲遲沒有推出的原因可能是對安全的擔憂，擔心被用於破解驗證碼和人臉識別系統。

直到這次Google多模態模型Gemini的消息傳出。

安全問題有沒有解決不得而知，但也許OpenAI是真的急了，不能任由谷歌超越，纔有了模型發佈的傳聞。

另據爆料，OpenAI還在準備從頭開始開發一個名爲Gobi的多模態模型，不過訓練還未開始。

那麼，谷歌這邊的情況又是怎樣的呢？

Gemini來勢洶洶

來勢洶洶的Gemini，讓網友直言其或將成爲遊戲規則的改變者。

甚至有媒體誇張一些地說將有機會取代GPT-4。

Gemini主要由谷歌DeepMind團隊開發。谷歌CEO皮查伊介紹，Gemini集成了多種技術，支持同時輸出文本和圖像，還可以使用工具和API。

據悉，Gemini吸取了很多來自AlphaGo的經驗教訓，包括強化學習和樹搜索技術。

而且，憑藉着擁有YouTube這一得天獨厚的優勢，海量的訓練數據可以說是唾手可得。

實際上，Google也一直把OpenAI視爲競爭對手。

爲了和ChatGPT較量，Google此前已經在Bard中加入過圖像識別功能，但並未改變ChatGPT的地位。

但這次推出的Gemini，OpenAI也感到害怕了。

儘管競爭激烈，有一點倒是讓谷歌和OpenAI不謀而合。

那就是，把模型的能力變成真金白銀。

谷歌計劃的Gemini提供方式是通過其Google Cloud Vertex AI雲服務平臺進行，預期價格爲每個用戶每月30美元。

這一做法預計將成爲谷歌新的收入來源，尤其是針對企業客戶。

而OpenAI這邊，也已經開始通過金融服務等各種應用程序將GPT-4變爲現金。

此次多模態的角逐究竟鹿死誰手，我們拭目以待。

相關文章