摘要:搜狗AI交互技術部總理陳偉介紹,3D AI合成主播“新小微”以新華社記者趙琬微爲原型,首先通過掃描還原、面部肌肉驅動、表情肢體捕捉等技術,生產出高度還原真人髮膚的逼真數字人模型。而當虛擬“數字人”從2D升級到3D後,隨之增強的靈活性也會意味着其適用的場景越來越多,“現在我們可能看到(AI主播)開始走進來,站着給你播報,可能不久的將來,他們就可能去做外景了,去採訪人了”,搜狗AI交互技術部總理陳偉表示。

原標題:搜狗3D AI合成主播背後:你在遊戲裏看到的CG效果,現在只需一段文本就能生成

出品 | 搜狐科技

作者 | 馬文玥

兩會召開之際,搜狗聯合新華社推出的全球首個3D AI合成主播“新小微”正式亮相上崗,爲觀衆播報最新兩會新聞資訊。自2018年搜狗自身的“分身技術”推出全球首個AI合成主播後,這也是搜狗首次將2D虛擬人升級爲3D形象。

一個很直觀的感受是,較之前的2D AI合成主播,3D“新小微”更加立體,在呈現方式上可以支持多機位多景深以及360°任意角度,更接近我們平日在電視看新聞的演播室調度。

3D AI合成主播可以支持多機位拍攝

2D AI合成主播

搜狗3D AI合成主播背後展現了哪些技術提升?對於商用落地和搜狗自身的戰略規劃分別帶來哪些價值?對此,搜狗AI合成主播研發團隊首次向搜狐科技在內的媒體揭祕了其背後故事。

搜狗AI交互技術部總理陳偉介紹,3D AI合成主播“新小微”以新華社記者趙琬微爲原型,首先通過掃描還原、面部肌肉驅動、表情肢體捕捉等技術,生產出高度還原真人髮膚的逼真數字人模型;同時結合多模態建模技術,使用語音、圖像、文本、3D肌肉運動數據等多模態信息完成聯合建模訓練生成現在我們看到的3D AI合成主播。

事實上,超寫實擬人化的“3D數字人”並非搜狗首創,其中CG動畫技術已有成熟應用於影視特效製作的案例,完全可以達到以假亂真的地步。在電影《速度與激情7》中,已逝主演保羅·沃克通過這種“虛擬重生”的方式,依然承擔了片中較重的戲份,但與之對應的是超長的製作週期與高昂的花費,因此帶來的後期渲染費用高達5000萬美金。

“在遊戲3D行業裏面,製作一分鐘寫實度很高的CG視頻,一個專業的美術師差不多要花一個月的時間;我們之前還了解到一個公司,做了一部電影,其中剪出來超寫實的(CG)片段一分半,但是他們幾百個人做了一年半,這已經算是做得非常快的了”,陳偉表示。

《速度與激情7》中虛擬合成的經典鏡頭

不過“新小微”的播報新聞並不需要如此高成本且繁複的操作步驟。因爲此前製作2D AI合成主播的經驗積累,以及AI帶來的自動化和低成本優勢,搜狗從立項到完工大約花費了半年時間,製作費用大約耗費了百萬元人民幣。

雖然逼真度來看仍與一流的影視特效存在差距,但3D AI合成主播一個非常重要的特點是文本驅動,即輸入一段新聞文本就能輸出一個視頻或者視頻流的能力,而且這種視頻輸出的能力是實時的。我們平常接觸的無論是電影特效人物還是遊戲裏的NPC,往往都需要大量的人力和時間來打磨。可以搜狗3D AI合成主播是一項“高性價比” 的創新,體現了AI“降本增效”的價值所在。

文本驅動的背後原因,是相比較CG技術,搜狗實現了AI驅動。事實上,即便是看起來難度低於超寫實“數字人”的卡通虛擬歌手“洛天依”,它所能最終呈現的效果,都是通過真人採集-後期製作-重複播放來實現。而“新小微”的製作僅花費了1個小時來採集原型人物新華社記者趙琬微的聲音模型。在此之前,搜狗已經通過數十人、上千小時、涵蓋新聞、小說、客服、散文等領域的數據訓練出了一套基礎模型,然後再通過原型趙琬微的少量數據進行迭代優化即可。

這樣的方式也意味着可以遷移學習,從而誕生不止一個“新小微”。除了遷移能力,從交付來看,3D AI合成主播的的門檻也並不高,只需要給客戶提供一個在線生成的服務網站。

目前,虛擬“數字人”的研發製作已經成爲全球各大科技公司AI實力儲備的一部分,國外如三星,國內如百度、科大訊飛、商湯等,除AI主播外,金融、司法、教育領域均有落地。

平安普惠和搜狗合力打造的 AI視頻面審機器人

而當虛擬“數字人”從2D升級到3D後,隨之增強的靈活性也會意味着其適用的場景越來越多,“現在我們可能看到(AI主播)開始走進來,站着給你播報,可能不久的將來,他們就可能去做外景了,去採訪人了”,搜狗AI交互技術部總理陳偉表示。

在今年年初的CES上,三星的“人造人”項目Neon曾引發軒然大波,在宣傳視頻的展示中,三星對這些以假亂真的“數字人”未來應用場景預設更爲廣泛——他們或是你的老師,健康諮詢師,也可能成爲電影明星。

三星Neon“人造人”計劃宣傳片,雖然目前研發仍存在差距

搜狗也同樣擁有更爲宏大的願景——“以語言爲核心的AI技術戰略佈局,從語言能擴展出自然交互和知識計算,最後希望達到的是虛擬個人助理”,陳偉表示。

不過從“Siri之父”最終棄Siri而去,再到“小愛同學”在雷軍在展示時多次“短路”,“AI個人助理”存在了很多年,也尷尬了很多年——其智能程度完全無法承擔我們對“個人助理”這四個字背後預期的高度。

陳偉也坦誠,在超寫實虛擬“數字人”這條賽道上,相比逼真度的提升,真正的難點是卡在了“語言理解”上。在感知層面,強於表達的虛擬“數字人”可以替代一部分主播的工作,卻很難實現與人更進一步的互動——“通用的語言理解目前機器做得還是不夠,我們看到的語音助手類無非就是問問天氣怎麼樣,點個歌,插科打諢一下。所以我們也逐步看到,針對垂直場景定製它的對話能力,是目前比較可行的落地方案”。

不同的垂直場景定製也意味着更高的難度係數。“跳到教育領域,如果是一個線上的老師,他跟學生溝通的時候不可能像主播坐得那樣筆直,學生表現很棒的時候,他可能需要時不時舉個大拇指”,陳偉稱。而在金融場景下,AI虛擬客服則需要通過一對一聊天,不斷的觀察、反問來拿到客戶全部信息。

沿着場景驅動的思路,百度、科大訊飛、商湯等人工智能領頭企業都在不同垂直領域進行探索。對於行業競爭,陳偉表示,“無論從識別到生成的,以及融合在一起的多模態能力,以及對話的能力、問答的能力,這裏涉及的技術特別多,技術串聯也特別多。我覺得一個公司想做好數字人相關的技術,需要一套完整體系和體系之間的協同,這是我認爲比較大的壁壘。”

相關文章