搜狗3D AI合成主播背後：你在遊戲裏看到的CG效果，現在只需一段文本就能生成

摘要：搜狗AI交互技術部總理陳偉介紹，3D AI合成主播“新小微”以新華社記者趙琬微爲原型，首先通過掃描還原、面部肌肉驅動、表情肢體捕捉等技術，生產出高度還原真人髮膚的逼真數字人模型。而當虛擬“數字人”從2D升級到3D後，隨之增強的靈活性也會意味着其適用的場景越來越多，“現在我們可能看到（AI主播）開始走進來，站着給你播報，可能不久的將來，他們就可能去做外景了，去採訪人了”，搜狗AI交互技術部總理陳偉表示。

原標題：搜狗3D AI合成主播背後：你在遊戲裏看到的CG效果，現在只需一段文本就能生成

出品 | 搜狐科技

作者 | 馬文玥

兩會召開之際，搜狗聯合新華社推出的全球首個3D AI合成主播“新小微”正式亮相上崗，爲觀衆播報最新兩會新聞資訊。自2018年搜狗自身的“分身技術”推出全球首個AI合成主播後，這也是搜狗首次將2D虛擬人升級爲3D形象。

一個很直觀的感受是，較之前的2D AI合成主播，3D“新小微”更加立體，在呈現方式上可以支持多機位多景深以及360°任意角度，更接近我們平日在電視看新聞的演播室調度。

3D AI合成主播可以支持多機位拍攝

2D AI合成主播

搜狗3D AI合成主播背後展現了哪些技術提升？對於商用落地和搜狗自身的戰略規劃分別帶來哪些價值？對此，搜狗AI合成主播研發團隊首次向搜狐科技在內的媒體揭祕了其背後故事。

搜狗AI交互技術部總理陳偉介紹，3D AI合成主播“新小微”以新華社記者趙琬微爲原型，首先通過掃描還原、面部肌肉驅動、表情肢體捕捉等技術，生產出高度還原真人髮膚的逼真數字人模型；同時結合多模態建模技術，使用語音、圖像、文本、3D肌肉運動數據等多模態信息完成聯合建模訓練生成現在我們看到的3D AI合成主播。

事實上，超寫實擬人化的“3D數字人”並非搜狗首創，其中CG動畫技術已有成熟應用於影視特效製作的案例，完全可以達到以假亂真的地步。在電影《速度與激情7》中，已逝主演保羅·沃克通過這種“虛擬重生”的方式，依然承擔了片中較重的戲份，但與之對應的是超長的製作週期與高昂的花費，因此帶來的後期渲染費用高達5000萬美金。

“在遊戲3D行業裏面，製作一分鐘寫實度很高的CG視頻，一個專業的美術師差不多要花一個月的時間；我們之前還了解到一個公司，做了一部電影，其中剪出來超寫實的（CG）片段一分半，但是他們幾百個人做了一年半，這已經算是做得非常快的了”，陳偉表示。

《速度與激情7》中虛擬合成的經典鏡頭

不過“新小微”的播報新聞並不需要如此高成本且繁複的操作步驟。因爲此前製作2D AI合成主播的經驗積累，以及AI帶來的自動化和低成本優勢，搜狗從立項到完工大約花費了半年時間，製作費用大約耗費了百萬元人民幣。

雖然逼真度來看仍與一流的影視特效存在差距，但3D AI合成主播一個非常重要的特點是文本驅動，即輸入一段新聞文本就能輸出一個視頻或者視頻流的能力，而且這種視頻輸出的能力是實時的。我們平常接觸的無論是電影特效人物還是遊戲裏的NPC，往往都需要大量的人力和時間來打磨。可以搜狗3D AI合成主播是一項“高性價比” 的創新，體現了AI“降本增效”的價值所在。

文本驅動的背後原因，是相比較CG技術，搜狗實現了AI驅動。事實上，即便是看起來難度低於超寫實“數字人”的卡通虛擬歌手“洛天依”，它所能最終呈現的效果，都是通過真人採集-後期製作-重複播放來實現。而“新小微”的製作僅花費了1個小時來採集原型人物新華社記者趙琬微的聲音模型。在此之前，搜狗已經通過數十人、上千小時、涵蓋新聞、小說、客服、散文等領域的數據訓練出了一套基礎模型，然後再通過原型趙琬微的少量數據進行迭代優化即可。

這樣的方式也意味着可以遷移學習，從而誕生不止一個“新小微”。除了遷移能力，從交付來看，3D AI合成主播的的門檻也並不高，只需要給客戶提供一個在線生成的服務網站。

目前，虛擬“數字人”的研發製作已經成爲全球各大科技公司AI實力儲備的一部分，國外如三星，國內如百度、科大訊飛、商湯等，除AI主播外，金融、司法、教育領域均有落地。

平安普惠和搜狗合力打造的 AI視頻面審機器人

而當虛擬“數字人”從2D升級到3D後，隨之增強的靈活性也會意味着其適用的場景越來越多，“現在我們可能看到（AI主播）開始走進來，站着給你播報，可能不久的將來，他們就可能去做外景了，去採訪人了”，搜狗AI交互技術部總理陳偉表示。

在今年年初的CES上，三星的“人造人”項目Neon曾引發軒然大波，在宣傳視頻的展示中，三星對這些以假亂真的“數字人”未來應用場景預設更爲廣泛——他們或是你的老師，健康諮詢師，也可能成爲電影明星。

三星Neon“人造人”計劃宣傳片，雖然目前研發仍存在差距

搜狗也同樣擁有更爲宏大的願景——“以語言爲核心的AI技術戰略佈局，從語言能擴展出自然交互和知識計算，最後希望達到的是虛擬個人助理”，陳偉表示。

不過從“Siri之父”最終棄Siri而去，再到“小愛同學”在雷軍在展示時多次“短路”，“AI個人助理”存在了很多年，也尷尬了很多年——其智能程度完全無法承擔我們對“個人助理”這四個字背後預期的高度。

陳偉也坦誠，在超寫實虛擬“數字人”這條賽道上，相比逼真度的提升，真正的難點是卡在了“語言理解”上。在感知層面，強於表達的虛擬“數字人”可以替代一部分主播的工作，卻很難實現與人更進一步的互動——“通用的語言理解目前機器做得還是不夠，我們看到的語音助手類無非就是問問天氣怎麼樣，點個歌，插科打諢一下。所以我們也逐步看到，針對垂直場景定製它的對話能力，是目前比較可行的落地方案”。

不同的垂直場景定製也意味着更高的難度係數。“跳到教育領域，如果是一個線上的老師，他跟學生溝通的時候不可能像主播坐得那樣筆直，學生表現很棒的時候，他可能需要時不時舉個大拇指”，陳偉稱。而在金融場景下，AI虛擬客服則需要通過一對一聊天，不斷的觀察、反問來拿到客戶全部信息。

沿着場景驅動的思路，百度、科大訊飛、商湯等人工智能領頭企業都在不同垂直領域進行探索。對於行業競爭，陳偉表示，“無論從識別到生成的，以及融合在一起的多模態能力，以及對話的能力、問答的能力，這裏涉及的技術特別多，技術串聯也特別多。我覺得一個公司想做好數字人相關的技術，需要一套完整體系和體系之間的協同，這是我認爲比較大的壁壘。”