來源:每經

5月21日,著名影星斯嘉麗·約翰遜(Scarlett Johansson)指控OpenAI的ChatGPT,非法使用其聲音並要求下架,表示對OpenAI的行爲感到“震驚”和“憤怒”。對此,OpenAI回應稱,將暫停使用“Sky”模式的聲音,並詳細介紹了語音選擇的創作流程,強調所有配音均來自專業演員。

此前,OpenAI推出新旗艦模型GPT-4o,該模型在保留了之前的五種語音模式的基礎上,大大提升了圖像和音頻理解方面的能力,能夠進行實時語音通信,可以識別音調、說話的人和背景噪音,甚至可以輸出笑聲、歌唱聲和表達情感。

斯嘉麗怒懟ChatGPT語音模式:山寨! 

5月21日,斯嘉麗·約翰遜在社交平臺髮長文指控OpenAI非法使用她的聲音,要求下架“Sky”模式。她表示,這種行爲不僅侵犯了她的權利,還引發了公衆對AI技術濫用的擔憂。

斯嘉麗在其長文中透露,早在2023年9月,OpenAI曾聯繫她,希望她爲ChatGPT的語音模式配音,但因個人原因她拒絕了這個邀請。就在產品發佈會前兩天,OpenAI再次嘗試說服她配音,依舊遭到拒絕。然而,斯嘉麗在最終發佈的產品中發現“Sky”模式的聲音與她本人非常相似。她表示,自己聽到演示後,感到震驚、憤怒和難以置信,無法相信OpenAI竟會使用一個如此像她的聲音,連她的親密朋友和新聞媒體都分辨不出Sky和她本人聲音的差別。

此外,斯嘉麗提到,OpenAI首席執行官薩姆·阿爾特曼(Sam Altman)在GPT-4o發佈時,在社交平臺上只發了一個詞“Her”,不禁讓人聯想到,斯嘉麗在2013年科幻AI電影《Her》中爲女主AI配音的經歷,是否在暗示這種相似是故意爲之?

斯嘉麗強調,“在這個我們都在努力應對深度僞造,保護自身形象、作品和身份的時代,我認爲這些問題需要得到絕對的明確。我期待通過透明度和立法來解決這些問題,以確保個人權利得到保護。”

面對指控,OpenAI迅速做出反應,宣佈暫停使用“Sky”模式的聲音。他們在官網上詳細介紹了ChatGPT語音模式的創作流程,強調所有聲音都是從400多名專業配音演員中挑選出來的,並經過嚴格的審覈。

OpenAI的官方聲明中提到:“我們收到了關於ChatGPT選取聲音方式的一些質疑,尤其是針對“Sky”。目前,我們正積極採取措施,暫停“Sky”的使用,以解決這些問題。”

GPT-4o:對話式AI的巨大飛躍 

此前,ChatGPT的語音模式包括Breeze、Cove、Ember、Juniper和Sky五種聲音。這些聲音是經過精心挑選,以滿足用戶的多樣化需求。每種聲音都擁有獨特的情感和聲音特質,爲用戶提供了更加豐富的交互體驗。

而最新發布的GPT-4o版本不僅保留了之前的五種語音模式,還進一步提升了語音交互的自然度和情感表達能力。GPT-4o在語音識別和生成方面進行了多項改進,使得AI助手更加智能和人性化。

據介紹,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。

GPT-4o是邁向更自然人機交互的一步,它可以接受文本、音頻和圖像三者組合作爲輸入,並生成文本、音頻和圖像的任意組合輸出,“與現有模型相比,GPT-4o在圖像和音頻理解方面尤其出色。”

在GPT-4o之前,用戶使用語音模式與ChatGPT對話時,GPT-3.5的平均延遲爲2.8秒,GPT-4爲5.4秒,音頻在輸入時還會由於處理方式丟失大量信息,讓GPT-4無法直接觀察音調、說話的人和背景噪音,也無法輸出笑聲、歌唱聲和表達情感。

與之相比,GPT-4o可以在232毫秒內對音頻輸入做出反應,與人類在對話中的反應時間相近。在錄播視頻中,兩位高管做出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸,還可以根據用戶要求變換語調。

圖像輸入方面,演示視頻顯示,OpenAI高管啓動攝像頭要求實時完成一個一元方程題,ChatGPT輕鬆完成了任務;另外,高管還展示了ChatGPT桌面版對代碼和電腦桌面(一張氣溫圖表)進行實時解讀的能力。

OpenAI稱,“我們跨文本、視覺和音頻端到端地訓練了一個新模型,這意味着所有輸入和輸出都由同一神經網絡處理。由於GPT-4o是我們第一個結合所有這些模式的模型,因此我們仍然只是淺嘗輒止地探索該模型的功能及其侷限性。”

相關文章