新版ChatGPT加強語音、文本、音視頻交互功能

袁原

美國開放人工智能研究中心13日展示了最新版本ChatGPT的新技能：與使用者展開語音對話、識別圖像並展開討論、翻譯……

GPT-4o爲新版本編號。據路透社報道，相比先前版本，GPT-4o與使用者對話基本無延遲，和人類反應速度類似。即使對話中途被打斷，也能繼續下去。這些都是實現逼真語音對話的標誌，也是當前衆多人工智能語音助手普遍面臨的技術難點。

在當天網絡直播的展示中，這款生成式人工智能工具利用其視覺和語音能力，指導演示者在紙上逐步解出一道方程題，而不是直接給出答案。它還展示了英語與意大利語互譯、用自拍照片識別情緒等能力。當一名演示者告訴它，自己正展示它是“多麼有用和不可思議”時，它回答道：“哦，快別說了，怪害臊的。”

開放人工智能研究中心首席執行官薩姆·奧爾特曼當天在博客中寫道，GPT-4o就像“電影中的人工智能”技術。“與電腦交談一直讓我感覺不自然，現在自然了。”

開放人工智能研究中心首席技術官米拉·穆拉蒂在當天活動中說，GPT-4o將於今後幾周內上線，用戶可免費試用。ChatGPT原有付費用戶將獲得新版本更多使用權限。

路透社報道，開放人工智能研究中心希望以GPT-4o在激烈的人工智能技術競爭中保持領先。該公司2022年發佈ChatGPT後，短時間內每月活躍用戶增至1億。然而，研究機構西米勒網絡公司的數據顯示，去年以來ChatGPT用戶人數呈現過山車式變化，近期才重回去年5月巔峯時期的水平。

近年來，開發更人性化、功能更強大的生成式人工智能工具競爭激烈。谷歌母公司字母表公司擬於14日召開谷歌開發者年度會議，預計屆時將展示谷歌開發的相關產品。硅谷企業家埃隆·馬斯克、技術企業“深層思維”創始人之一穆斯塔法·蘇萊曼也分別投資開發了聊天機器人Grok和Pi，將擬人化特點作爲產品主攻方向。

在英國廣播公司看來，GPT-4o能夠結合文本、音頻和圖像內容瞬間做出反應，目前在競爭中仍處於領先地位。（完）

責任編輯：劉萬里 SF014

靠炒幣翻身？這家醫療科技公司買入比特幣後股價一日飆升40%