北京時間5月14日凌晨,美國人工智能研究公司OpenAI召開春季發佈會,發佈全新旗艦模型GPT-4o。該發佈會僅在線上進行了不到30分鐘,卻引起了AI界的廣泛關注。

GPT-4o的“o”代表“omni(全能)”。

OpenAI稱,與現有模型相比,GPT-4o在視覺和音頻理解方面尤其出色,這款模型接受文本、音頻和圖像的任意組合輸入,並生成文本、音頻和圖像的任意組合輸出。在英語文本和代碼上,GPT-4o的性能和GPT-4 Turbo模型的性能相匹配,在非英語文本上,GPT-4o的性能有顯著提高。 

01

GPT-4o的“類人”交互能力尤其受到關注

在發佈會現場,OpenAI的工程師對GPT-4o說“我第一次來直播的發佈會,有點緊張”,GPT-4o回應他“要不你深呼吸一下”。在工程師略作誇張的大力深呼吸後,GPT-4o很快說道“你這不行,喘得也太大了”。 

金山雲AI業務負責人於遊在GPT-4o發佈後也進行了相關測試。他稱,GPT-4o“TTS(從文本到語音)效果優化明顯”。在他看來,OpenAI真正意義上實現着VPA(虛擬個人助理)的落地。 

於遊指出,近幾年無論是學界還是技術界,“類人”應用在AGI(通用人工智能)領域高速發展,但把多模態、類人語音這些東西完全對齊,放在一個模型當中,如此順暢地將效果展現出來,OpenAI實現了“一個非常重大的工程化進步”。 

02

GPT-4o的音頻響應速度已經達到和人類相似的水平 。OpenAI稱,GPT-4o可以在短至0.23秒(平均爲0.32秒)的時間內響應音頻輸入,與人類的響應時間相似。而使用語音模式與GPT-3.5對話的平均延遲爲2.8秒,與GPT-4對話的平均延遲爲5.4秒。 

在浙江大學計算機系統結構實驗室從事大模型相關研究的陳天楚全程觀看了OpenAI的發佈會。陳天楚稱,GPT-4o弱化了編程等專業能力,尤其突出了語音模態能力,“是首個公開、有實用價值的端到端語音對話模型”。 

GPT-4o的“類人”交互能力也讓市場關注到OpenAI在端側,以及和蘋果公司合作的想象空間。 

身在新加坡的Vibranium Consulting副總裁陳沛一早打開ChatGPT就收到了更新提示,他使用後的感受是“這次最大的優化是響應延遲”。陳沛稱,以前使用ChatGPT基本上要1秒到2秒才能生成,如今流暢度進一步增加。 

陳沛稱,GPT-4o的效果展示讓外界看到OpenAI正在推動大模型在手機終端側的落地,因爲“語音輸入和生成延遲,一直都不是網頁端的剛需”。 

這也是近期市場的關注焦點之一。日前,有報道稱,蘋果公司接近與OpenAI達成協議,將在蘋果手機下一代操作系統iOS 18集成ChatGPT。蘋果還與谷歌就授權Gemini聊天機器人進行了談判。 

03

2024年蘋果全球開發者大會(WWDC 2024)將於6月10日至6月14日舉行,並計劃發佈iOS18。 

英偉達科學家Jim Fan在社交媒體發文猜測,OpenAI與蘋果iOS的集成可能有三個層次:一是蘋果放棄語音助手Siri,OpenAI爲iOS提煉出更小型、純設備上的GPT-4o,並可選擇付費升級以使用雲;二是設備將擁有把相機或屏幕傳輸到模型中的功能,可以對神經音頻或視頻編解碼器進行芯片級支持;三是與iOS系統級操作API(應用程序編程接口)和智能家居API集成。 

相關方均未就上述消息予以公開回應。但在發佈會上,OpenAI稱,蘋果電腦用戶將迎來一款爲macOS系統設計的ChatGPT桌面應用,用戶可以通過快捷鍵“拍攝”桌面並向ChatGPT提問。 

於遊稱,OpenAI去年發佈GPT-4後,其付費的高性能版本就已經展現出模型對圖文、語音、視覺等全方位的實時推理等相關能力。現在OpenAI通過GPT-4o一個大模型將圖文、語音、視覺交互進行了集中展示,還爲未來應用層打開了想象空間,機器完全可以通過識別語音和表情實現與人的交互。 

“VPA的載體會發生變化。”於遊說,OpenAI試圖撬動一種新的交互邏輯,伴隨人機智能交互方式的改變,不論是硬件端還是軟件端,都極有可能產生一個新的載體,去實現AGI系統響應人類強人工智能的需求。

本文來自微信公衆號“經濟觀察報”(ID:eeo-com-cn),作者:錢玉娟 陳奇傑,36氪經授權發佈。

相關文章