來源: DeepTech深科技

又一次,AI 欺騙了人類。

在一次試驗中,AI 讓 73% 的人相信 AI 合成音效是真實的。這一最新研究成果有望應用於電影、電視劇等影視製作工作中。

想象一下,假如你正在看一部恐怖片:女主戰戰兢兢地走在黑暗的地下室中,背景音樂十分恐怖,同時一些看不見的邪惡生物也在黑暗中蠕動,然後突然一聲巨響,一個物體被撞倒了…… 如果沒有這種令人緊張又恰到好處的音效,只通過眼睛看到的場景很難讓人產生這種恐懼感。

通常,這些音效是由錄音室中的 Foley 藝術家錄製的,他們會使用特定的物體來產生特殊的聲音。比如,如果導演想要在視頻中加入玻璃破碎的聲音,可能需要 Foley 藝術家打碎很多塊玻璃,直到聲音與視頻片段匹配起來。(DeepTech 注:Foley,即擬聲音效,用於增強電影的聽覺體驗,是日常聲音效果的再現,後期製作中會添加到電影、視頻和其他媒體中,以提高音頻質量。這些再現的聲音以音效藝術家 Jack Foley 的名字命名,可以是從衣服和腳步聲,到吱吱作響的門和碎玻璃的任何聲音。)

如今,爲解決這一問題,來自美國得克薩斯大學聖安東尼奧分校的研究人員創建了一個基於機器學習的自動程序,它可以確定一個視頻剪輯中正在發生的動作,並據此創建逼真的音效,而且已經讓大多數人相信假的聲音效果是真實的。

相關研究成果以論文的形式發表在由 IEEE 計算機協會、IEEE 通信協會等出版的科學期刊《IEEE 多媒體彙刊》(IEEE Transactions on Multimedia)上。

對於此項工作,論文通訊作者、得克薩斯大學聖安東尼奧分校教授傑夫 · 普雷沃斯特(Jeff Prevost)表示,“自 20 世紀 30 年代以來,在電影和電視劇的後期製作中,通過使用 Foley 藝術爲特定場景添加音效,一直是一個比較複雜的事情。如果沒有逼真的 Foley 音效,電影就會顯得空洞、不真實,但是 Foley 音效合成增加了電影和電視劇的創作週期和成本。”

在普雷沃斯特和他的博士生桑奇塔 · 高斯(Sanchita Ghose)創建的多層機器學習程序中,他們針對包括識別視頻中的動作和確定合適的聲音這一步,分別創建了兩種不同的模型,來檢驗音效的合成效果。

第一種模型,可以從快速移動的動作剪輯的幀中提取圖像特徵(比如,顏色和運動),以確定適當的聲音效果;第二種模型,分析一個物體在不同幀中的時間關係,通過使用關係推理來比較不同時間段的不同幀,這一模型可以預測在視頻中發生了什麼動作。

在最後一步中,通過合成聲音來匹配模型預測的活動或運動。目前,他們爲 1000 個電影片段創建了聲音,並捕捉了一些常見的動作,比如下雨、奔騰的馬和滴答作響的鐘表。

結果顯示,他們的模型最適合用在時間不需要與視頻完全一致的場景(比如,下雨聲和火的噼啪聲)中,但當視頻中包含隨時間變化的隨機動作(比如,打字、雷暴)時,表現得就不太好。

此外,他們也對當地的 57 位大學生進行了調查,看他們是否可以分辨出哪些電影片段中包含了原始音效。在評估第一個模型時,73% 的學生選擇了合成音效作爲原始音效,在評估第二個模型時,這一數字爲 66%。可見,這兩個 AI 模型已經騙過了大多數人。

但是,普雷沃斯特表示,該方法還存在一個明顯的不足,必須要求分類的主體出現在整個視頻幀序列中,而且依賴於具有有限 Foley 類別的數據集。

對此,普雷沃斯特認爲,這些不足將會在未來的研究中得以解決。

相關文章