只輸入語音便能生成人體姿勢。瑞典皇家理工學院的研究者做到了!

你能看出上圖中的人物姿勢是僅基於一段語音生成的嗎?

基於語音生成上半身動作甚至全身姿勢,並實現速度、對稱度等高級的姿勢控制,瑞典皇家理工學院的一項研究做到了。

該研究提出的方法不僅能夠基於語音合成對應的姿勢,還可以爲同樣的語音生成不同的姿勢:

上面這兩組姿勢竟然表達的是同一段話?

僅僅這樣還不夠,該方法還提供高級的風格控制,比如速度:

左右方姿勢的對稱度:

說話時姿勢動作的半徑範圍,動作幅度的大小盡在掌控:

甚至還能控制一側手臂的高度位置:

此外,該方法還可以生成全身的姿勢動態,包括站姿的變化和腳步的移動:

具體效果參見視頻:

Demo 展示的效果征服了一批 reddit 網友。他們表示,如果能將這個技術用在遊戲(如《無人深空》)或 VR 產業,那麼無需昂貴的人體動作捕捉就能生成逼真的高質量動作,這可以大大降低遊戲的開發成本,也能讓對話情境下的 VR 人物更加逼真。

那麼,如此逼真的姿勢動作是如何生成的呢?我們來看這項研究的具體細節。

只用語音生成人物姿勢

逼真姿勢的自動合成有望改變動畫、替身和交際智能體領域。在離線應用中,新工具可以將動畫師的角色轉變爲導演,他只需爲期望的動畫效果提供高級輸入即可。之後,學得的網絡將這些指令轉換爲適當的身體姿勢序列。在交互場景中,實時生成自然動畫的系統是塑造可信和關聯角色的關鍵所在。

瑞典皇家理工學院的研究者通過對 MoGlow 這一基於深度學習的動作合成方法進行改進,提出了一種新的生成模型,該模型可實現當前最優的語音驅動姿勢生成。

得益於該方法的概率屬性,在給定相同輸入語音信號的情況下,該模型可以生成多個不同且合理的姿勢,實現動作的自然變化。

研究者還展示了該模型對輸出風格施加指引性控制的能力,如姿勢高度、速度、對稱度和空間活動範圍。這類控制可用來傳達期望角色的個性或情緒。研究者在未對數據做任何手動標註的情況下,實現了以上功能。

在實驗部分,用戶研究表明,該方法生成的上半身姿勢動作自然,並且與輸入語音非常匹配。該方法的評分高於先前所有的此類系統和基線方法,並且接近原始記錄動作的評分。

研究者進一步發現,該方法可以在不損失動作的感知自然度的情況下,準確地控制姿勢風格。

最後,研究者展示了該方法同樣適用於行走和站立等全身姿態的動作合成。

接下來,我們來看該模型的實現原理和具體效果。

實現原理

該研究提出的概率生成模型基於近期關於歸一化流的工作構建,尤其是 MoGlow [HAB19]。該模型可在大型非結構化運動數據集上進行訓練,且數據無需手動標註。

與直接基於語音合成動作的方法不同,該模型的訓練過程中將語音作爲輸入,建模動作的條件概率分佈。這樣就可以基於概率分佈採樣新的姿勢,從而每一次都可以生成不同卻合理的姿勢。這與人類行爲一致,並且可以爲虛擬智能體和動畫行業提供不錯的應用優勢。

該方法的優勢包括:

  • 數據集無需手動標註;

  • 具備不確定性(因而可以得到無限種類的姿勢變體);

  • 能夠輸出全身姿勢。

具體而言,在實現語音驅動姿勢合成的過程中,研究者使用了歸一化流(normalising flow)。完整的動作生成流程如下圖 1 所示:

該模型的思路是在使用歸一化流的姿勢序列  穩定自迴歸模型中,學習姿勢 X 的多維下一步(next-step)分佈。歸一化流這一通用技術在表示大量連續值分佈 p(x) 時能夠同時實現高效推理(概率計算)以及高效的分佈採樣。

整體轉換和中間結果表示如下:

此外,歸一化流的核心難題是設計出一個靈活、可逆、可微分且具有快速計算雅克比行列式(Jacobian determinant)的 f_n 變換參數族。2018 年,Diederik P. Kingma 等研究者提出了 Glow 方法,在生成面部圖像上實現了顯著的效果。之後,又出現了改進版 MoGlow。

MoGlow 專注於零算法延遲的運動控制,並不非常適合語音驅動姿勢合成任務。與語音同時出現的人體姿勢可以分割爲準備、執行(stroke)和撤回三個階段。

基於此,該研究令時間實例 t 時的控制輸入 c_t 同時包含當前語音特徵 a_t 以及周圍語音特徵 的視窗(window),從而將足夠的未來信息考慮在內。完整的動作生成流程如上圖 1 所示。

實現效果如何?

在所有實驗中,評分者需要觀看和聆聽人體姿勢的 18 秒視頻片段(如下圖所示),並根據給定的評分標準進行打分(5 分制)。

人體相似性和適當性評估

下圖 3 和表 1 展示了人體相似性、適當性、風格控制人體相似性和全身姿勢人體相似性的平均得分:

風格控制評估

下圖 4 展示了風格控制對系統生成動作的影響,其中每一行表示不同的風格控制系統(分別是 M-H、MG-V、MG-R 和 MG-S)。

全身姿勢評估

評估結果如上圖 3 中最右側圖,全身 GT 平均得分爲 4.005,FB-C 平均得分爲 3.764,FB-U 平均得分爲 3.421。

全身姿態的人體相似性評估結果。

缺陷

這項研究在 reddit 上引起了廣泛關注和討論。除了對模型效果表示讚歎以外,也有網友發現了其中需要改進的地方。

例如,有網友指出:「這個模型可以恰當地對節奏和語音強度做出反應,但它似乎並不怎麼關注真實的語音信息內容。」

對此,作者之一 Gustav Eje Henter 表示同意:

你說的對!這個模型僅傾聽語音(沒有文本輸入),但並不包含任何人類語言模型。我認爲,使用這類模型生成具備語義意義的姿勢(尤其還要與語音節奏保持一致)仍是一個未解難題。

該網友還提出了數據問題:「要想使模型達到合理的效果,可能需要大規模數據集。」

對於,Henter 也表示認同:

數據是目前的主要瓶頸。該模型基於同一個人的大約四小時的姿勢和語音數據。我們很難找到足夠的高質量語音和動作平行數據。一些研究者使用 TED 演講,但是從此類視頻中提取的姿勢動作看起來不具備說服力,不夠自然。(好的運動數據需要運動捕捉設置和仔細的數據處理。)因此,該研究目前使用的是較小型的高質量數據集。

參考鏈接:

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/

https://www.reddit.com/r/MachineLearning/comments/hpv0wm/r_stylecontrollable_speechdriven_gesture/fxuytg1/

相關文章