原標題:科大訊飛總裁:發力元宇宙和現實溝通,實現虛擬人多維表達

·“目前已經把語音、眼神視線、手勢、面部表情結合起來,實現數字虛擬人交互的多維表達,下一步發力的重點將是元宇宙和現實世界的信息溝通。”

人工智能生成內容(AIGC)熱潮下,圖像內容領域進展神速,而另一個賽道的人工智能生成語音也同樣至關重要:如何讓機器的聲音媲美人類?

作爲人工智能語音領域的龍頭企業,科大訊飛最近宣佈新一代語音合成系統SMART-TTS已經能夠生成帶有11種情感的聲音。基於這一進展,科大訊飛總裁吳曉如近日對澎湃科技(www.thepaper.cn)表示,該公司目前已經開始把語音、眼神視線、手勢、面部表情結合起來,實現數字虛擬人交互的多維表達,下一步發力的重點將是元宇宙和現實世界的信息溝通。

科大訊飛總裁吳曉如在2022科大訊飛全球1024開發者節上發表演講。

AIGC支撐元宇宙發展

AIGC與元宇宙的關係,成爲科技界越來越關注的話題。在全球疫情的高峯期,元宇宙迅速進入人們的集體意識並受到追捧,但隨着這個名詞變得“過於時髦”,人們如今對它的看法似乎不像以前那樣積極甚至有些看衰。無論怎樣,爲元宇宙提供動力的技術卻一直在加速發展,其中一項技術就是生成式人工智能(generative AI),它使用深度學習神經網絡,根據簡單的提示產生創造性的概念藝術和其它想法,這些內容被稱爲人工智能生成內容(AIGC)。

上週,人工智能產品和GPU(圖形處理器)製造商英偉達的首席執行官黃仁勳在接受科技媒體VentureBeat採訪時稱,生成式人工智能將是變革性的,並且變革纔剛剛開始。其最大的應用之一可能是與元宇宙有關,因爲開發者需要用3D資產來填充虛擬世界,所以對內容有巨大需求。

吳曉如對記者表示,人工智能更多是成爲元宇宙發展的支持者,虛擬數字人技術或將是元宇宙落地的先鋒。技術上,AI可以提供虛擬形象的展現,並已在生產系統中有一定應用,如金融銀行等服務場景中,虛擬人提供的遠程交互功能已經成爲生產力工具。

今年初,科大訊飛正式啓動“訊飛超腦2030計劃”。願景上,第一階段(2022-2023),該公司將推出軟硬件一體的機器人,同期推出專業數字虛擬人家族,擔當老師、醫生等角色;第二階段(2023-2025),將推出自適應行走的外骨骼機器人和陪伴數字虛擬人家族;第三階段(2025-2030),最終推出懂知識、會學習的陪伴機器人和自主學習虛擬人家族,全面進入家庭。

在吳曉如看來,當前人工智能開放平臺的三大趨勢表現爲,人與機器深度協作的虛擬與實體融合,連接終端更加多元化,以及更深度融入醫療、教育、工業等行業場景。

目前,科大訊飛已經展示了多個專業虛擬人和麪向未來元宇宙的沉浸式人機交互系統。“目前已經開始在智能化的一些應用上把視覺、手勢、視線和語音結合起來,實現數字虛擬人交互的多維表達。”吳曉如在接受澎湃科技在內的媒體採訪時說。

在具體規劃方面,吳曉如表示,一是要面對場景應用建立場景模型,使科大訊飛AI研究院打造未來行業場景模型時成本更低;二是提供AI+API(應用程序接口,可理解爲可公開訪問的“接入點”)超級工具,即終端用戶能直接上手的智能化工具,如財務報銷,人力輔助招聘;三是降低互動式虛擬人成本;四是爲實現更低成本、更高效率打造軟硬一體化機器人;五是提升隱私和數據安全。

“AI感知方式必然要從單模態發展到多模態”

根據最新的技術進展,科大訊飛新一代語音合成系統SMART-TTS已經能夠生成高興、抱歉、撒嬌、嚴肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺11種情感,每種情感有20檔強弱度不同的調節能力。除此之外,還提供了聲音的創造能力,讓使用者根據自己的喜好調節停頓、重音、語速等。

在11月18日舉行的2022科大訊飛全球1024開發者節上,科大訊飛AI研究院副院長高建清曾向澎湃科技在內的媒體介紹這一新的系統。

“機器想更自然地與人類進行交互,需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態發展到多模態,逐步擬人化。”高建清表示,其中一項關鍵算法的突破在於,基於無監督學習的預訓練框架,使用少量有監督數據進行優化。

具體而言,針對多模語音識別、情感識別等多模態任務,全新的預訓練框架對音頻、人臉等不同模態的輸入“一視同仁”,利用其中內容、表情及身份等信息的關聯性進行融合,可設計出不同的訓練目標。而少量有監督數據構建碼本,讓訓練機時下降八成,實現實用化預訓練。

在聲音和虛擬形象生成技術方面,據高建清介紹,目前已經實現了語義可控的聲音、形象生成,語義驅動的情感、動作表達。如輸入“一頭長髮”,系統智能生成溫柔大方的女性形象,聲音端莊又不失甜美;輸入“英俊瀟灑”,生成有一些商務範的男生形象,聲音略帶磁性。

通過分析語音中的韻律節奏、語義信息,虛擬人即可據此流暢地切換動作,擁有更加自然的肢體語言。“與傳統動作庫相比,這套語義驅動的系統在動作擬人度及契合度方面,有明顯的效果提升。”高建清說。

高建清透露,科大訊飛AI研究院下一步將發佈三款重點產品:第一,2022年首發專業虛擬人,2023年打造數字經濟下的虛擬人家族;第二,2023年發佈可養成寵物玩具;第三,將在2023年發佈青少年抑鬱症篩查平臺,以免費方式向全國發放。

整體而言,對於接下來人工智能和元宇宙的結合,吳曉如對澎湃科技表示,“未來元宇宙和現實世界作對應交互時,需要完成信息相互溝通,這可能是我們下一步發力的重點。”

相關文章