作者 | 連冉

編輯 | 鄭玄

「一隻鸚鵡飛過青翠的哥斯達黎加叢林,然後降落在樹枝上與一羣猴子一起喫一塊水果的俯視圖;黃金時段,35 毫米膠片。」這是彭博社給到 OpenAI 研究人員的提示詞,後者使用這些提示詞在 Sora 上創建了場景。

23 日,彭博社聯繫 OpenAI 對 Sora 進行了測試,從結果來看,Sora 還未到「黃金時段」。

在給到的四句提示語中,由於時間限制,Sora 團隊只將其中兩句提示詞生成了視頻。

問題出現了。

在時長僅有 10 秒的視頻中,一隻鸚鵡在叢林中飛翔,乍看正常,細看就會發現,鸚鵡的翅膀在飛過猴子時會扭曲,並且,提示語中之要求「一隻鸚鵡」,Sora 輸出的視頻裏卻出現了好幾只,並且,視頻中一隻猴子的臀部似乎還有一條鸚鵡的尾巴。這麼看,似乎有點「翻車」即視感。

對此,OpenAI 研究科學家 Bill Peebles(比爾・皮布爾斯)也對彭博承認了這一點,「確實會在片段中找到一些奇怪的動作」

在 The Verge 截取發佈在 TikTok 上的這段由 Sora 生成的視頻片段中同樣可以看到一些不合理的情況,包括物體相互穿過、變形,這背後反映的是 Sora 在還不能夠準確理解和呈現物體的物理特性:籃球穿過籃筐的側面,狗在走路時相互穿過,手的形狀也有點奇怪。

YouTube 上也有一位博主更爲詳細地解析了 Sora 產出的視頻中存在的問題,與 The Verge 展現的類似,除了狗狗似乎在互相穿過身體的那支視頻,在一隻柯基犬的 vlog 裏,有一隻海鷗飛到了相機前卻又突然消失,隨後畫面裏又出現了另一隻,以怪異的方式在行走;在一個建築工地的視頻裏,一輛叉車似乎可以不受周圍物體的影響輕鬆通過。此外還有一個生日派對的場景,參與者的表情和動作看起來都有種說不出的詭異感。

看起來,雖然 Sora 可以生成出色的視頻,但當場景複雜時,它可能會給出一些不符合現實場景的動作。OpenAI 官方也表示,Sora 還有很長的路要走,有很多技術挑戰需要解決 —— 包括前面提到的身體部位的雜亂問題和對物理學的理解水平。

OpenAI 在 Sora 的技術報告中指出,Sora 作爲視頻生成模型在模擬現實世界時面臨一系列挑戰和侷限性。具體來講,Sora 在技術層面存在以下主要侷限:

  • 物理交互的準確性:Sora 在模擬一些基本的物理交互現象時存在不足,例如無法準確模擬玻璃破碎等物理現象。

  • 對象狀態變化的一致性:在模擬如進食等交互時,Sora 可能無法產生正確的物體狀態變化,導致視頻中出現不連貫的視覺效果。

  • 長期樣本的連貫性:在生成較長時間跨度的視頻樣本時,Sora 可能會出現連貫性問題,導致視頻中出現不自然的過渡或物體的突然變化。

  • 物體的自發出現:Sora 有時會在視頻中自發地生成物體,這些物體可能與場景不匹配或在邏輯上不合理。

  • 手部和身體部位的處理:Sora 在處理手部和身體部位時存在問題,如手部可能表現得不自然或與其他物體發生不真實的交互。

  • 計算資源的需求:Sora 生成視頻需要較多的計算資源和時間,這限制了其在實時或快速響應場景中的應用。

  • 模型的泛化能力:儘管 Sora 在某些特定場景下表現出色,但它在泛化到新場景和處理多樣化輸入方面可能還有待提高。

  • 視頻編輯和擴展的能力:雖然 Sora 能夠執行一些視頻編輯任務,如擴展視頻或改變場景設置,但這些功能可能在複雜場景中表現不佳。

由於上述技術侷限,在讓外界驚鴻一瞥後,Sora 的短暫「翻車」似乎也並不令人意外。

作爲一款文本轉視頻模型,Sora 採用了 Diffusion transformer 技術(包括特徵提取、編碼、序列組合等多個步驟)。

與大模型處理文本的原理類似,Sora 將視頻內容分解成一系列 patch(視覺編碼塊),這些 patch 類似於視頻的視覺詞彙,然後,它會對這些 patch 進行降維處理,以便於分析和理解,在這一過程中,Sora 通過去噪技術,從帶有噪聲的 patch 中預測出清晰的原始圖像信息,最終合成爲連貫的視頻。換句話說,Sora 的訓練過程類似於人類的認知過程,這一點讓它極大地優化了視頻生成的效果。

隨着技術的突破,問題會解決。對於推新飛快的 OpenAI 來說,應該用不了很久。

本文來自微信公衆號:極客公園 (ID:geekpark),作者:連冉

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章