#OpenAI 發佈最新模型#GPT-4o,語音功能震撼登場!擬人化、超自然、超低時延的個人語音交互助理

北京時間週二凌晨,OpenAI發佈了一款新的旗艦生成式AI模型“GPT-4o”,其中的“o”代表“omni”(全能),指的是該模型處理文本、語音和視頻的能力。它具有與人類相似的對話能力,令人印象深刻。

GPT-4o在保持GPT-4級別的智能的同時,對文本、視覺和音頻功能進行了改進。OpenAI首席技術官(CTO)Mira Murati及其員工Mark Chen和Barret Zoph在現場演示時展示了新的音頻對話和視覺理解能力。

OpenAI聲稱,GPT-4o對音頻輸入的平均反應時間約爲320毫秒。根據2009年的一項研究,這與人類在對話中的反應時間相似,而之前的模型通常要延遲2-3秒時間。

除了響應速度,GPT-4o似乎很容易捕捉到情緒,並根據用戶的要求調整語氣和風格,甚至還在回應中加入了音效、笑聲和歌聲。

GPT-4o更像人類

GPT-4o在理解人類交流方面邁出了重要的一步,用戶可以用一種接近自然的方式與其交談。它伴隨着現實世界中幾乎所有的傾向,比如打斷、理解語氣,甚至意識到自己犯了一個錯誤。

在第一次現場演示中,主持人要求GPT-4o對他的呼吸技巧做出反饋。他對着手機深深地吸了一口氣,而ChatGPT則詼諧地回應道:“你不是吸塵器。”它建議使用一種速度較慢的技術,展示其理解和回應人類細微差別的能力。

除了具有幽默感,ChatGPT也會改變回應的語氣,在傳達“思想”的同時用不同的語調來完成。就像人類對話一樣,你可以打斷它的對話並糾正它,讓它做出反應或停止說話。你甚至可以要求它以某種語氣、風格或機器人的聲音來說話。

此外,它甚至還可以提供翻譯服務。在現場演示中,舞臺上的兩名演講者,一名說英語,一名說意大利語,通過Chat GPT-4o的翻譯進行對話。它可以快速將意大利語翻譯成英語,然後無縫地將英語回覆翻譯回意大利語。

據悉,Chat GPT-4o在50多種語言的速度和質量上都有所提高。OpenAI表示,這些語言覆蓋了世界97%的人口。

除了語音理解,Chat GPT-4o還可以理解視覺效果。例如,對於視頻中的一道方程題,它可以指導你如何求解。

另外,它還可以觀看現場自拍,並提供描述,包括你的穿着,以及情緒。在演示中,Chat GPT-4o表示,主持人看起來很開心。

在整個演示過程中,Chat GPT-4o工作得很快,在理解方面並不費力,也沒有提出詢問。與輸入查詢相比,與Chat GPT-4o的交流更自然。你可以自然地對着手機說話,並得到想要的回應,而不是用谷歌去搜索。

電影《Her》中的薩曼莎

此時,如果想到了《Her》(一部和AI虛擬人薩曼莎談戀愛的電影),或者其他與AI相關的未來主義反烏托邦電影,你不是唯一的一個。以如此自然的方式與Chat GPT-4o交談,本質上就是OpenAI的《Her》時刻。考慮到它將在移動應用程序和桌面應用程序上免費推出,許多人可能很快就會擁有自己的《Her》時刻。

雖然並未在直播演示中現身,但OpenAI CEO 薩姆·奧特曼(Sam Altman)對這次演示做了重要的總結,稱GPT-4o給人的感覺就像電影中的AI。

他說:“新的語音和視頻模型GPT-4o是我用過的最好的計算機界面,這感覺就像電影中的AI。而且,對我來說,它真實的仍然有點令人驚訝,達到了人類級別的響應速度和表現。最初的ChatGPT顯示出了語言界面的可能性,但GPT-4o這個新事物感覺本質上有所不同,它快速、智能、有趣、自然、實用。”

“對我來說,與電腦交談從來都不是很自然的感覺;但現不同了,它變得自然了。隨着將來不斷地完善,我真的看到了一個令人興奮的未來,我們能使用計算機做比以往任何時候都多的事情。”

奧特曼還稱,在創建OpenAI時,最初的想法是創造AI,並用它來爲世界創造各種裨益。但如今,創造AI後,希望讓其他人使用它來創造各種令人驚歎的東西,所有人都會從中受益。奧特曼還表示:“OpenAI是一家企業,會找到很多收費的東西,這將幫助我們爲數十億人提供免費的、出色的AI服務。”

新的安全風險

這場令人印象深刻的語音和視覺演示,可能只是觸及了Chat GPT-4o各種可能性的皮毛。儘管其總體性能,以及在各種環境中的日常表現仍有待觀察,但很明顯,通過現場演示可以看出,Chat GPT-4o已經對谷歌和蘋果的未來挑戰做好了準備。

OpenAI稱:“Chat GPT-4o是我們第一個結合了上述所有技術的模型,我們目前只是觸及到探索該模型的功能,及其侷限性的皮毛。”

Murati承認,Chat GPT-4o的實時音頻和圖像能力在安全方面帶來了新的挑戰。她表示,OpenAI將繼續研究安全性,並在未來幾周的迭代部署期間徵求測試用戶的反饋。

OpenAI稱:“Chat GPT-4o還與社會心理學、偏見和公平性等領域的70多名外部專家進行了廣泛的合作,以識別新模型可能導致或放大的風險。我們利用這些經驗來加強安全乾預措施,以提高與Chat GPT-4o交互的安全性。一旦新的風險被發現,我們將採取措施降低它們。”

GPT-4o前景展望

Google I/O大會開始的前一天,OpenAI發佈了Chat GPT-4o,讓我們見識到了人們想要的真正實用的AI體驗。如果傳聞中的與蘋果的合作成爲現實,那麼Siri將如虎添翼。

對於谷歌而言,幾乎可以肯定的是,將在5月14日的I/O大會上展示其最新的AI技術。它能足以抵抗Chat GPT-4o嗎?

在不到30分鐘的演講中,OpenAI無法對Chat GPT-4o進行更多的現場演示。幸運的是,它將在未來一週向用戶推出,且不需要支付費用。

相關文章