Sora「翻車」：猴子長出鸚鵡尾巴，物體學會「穿牆術」

作者 | 連冉

編輯 | 鄭玄

「一隻鸚鵡飛過青翠的哥斯達黎加叢林，然後降落在樹枝上與一羣猴子一起喫一塊水果的俯視圖；黃金時段，35 毫米膠片。」這是彭博社給到 OpenAI 研究人員的提示詞，後者使用這些提示詞在 Sora 上創建了場景。

23 日，彭博社聯繫 OpenAI 對 Sora 進行了測試，從結果來看，Sora 還未到「黃金時段」。

在給到的四句提示語中，由於時間限制，Sora 團隊只將其中兩句提示詞生成了視頻。

問題出現了。

在時長僅有 10 秒的視頻中，一隻鸚鵡在叢林中飛翔，乍看正常，細看就會發現，鸚鵡的翅膀在飛過猴子時會扭曲，並且，提示語中之要求「一隻鸚鵡」，Sora 輸出的視頻裏卻出現了好幾只，並且，視頻中一隻猴子的臀部似乎還有一條鸚鵡的尾巴。這麼看，似乎有點「翻車」即視感。

對此，OpenAI 研究科學家 Bill Peebles（比爾・皮布爾斯）也對彭博承認了這一點，「確實會在片段中找到一些奇怪的動作」

在 The Verge 截取發佈在 TikTok 上的這段由 Sora 生成的視頻片段中同樣可以看到一些不合理的情況，包括物體相互穿過、變形，這背後反映的是 Sora 在還不能夠準確理解和呈現物體的物理特性：籃球穿過籃筐的側面，狗在走路時相互穿過，手的形狀也有點奇怪。

YouTube 上也有一位博主更爲詳細地解析了 Sora 產出的視頻中存在的問題，與 The Verge 展現的類似，除了狗狗似乎在互相穿過身體的那支視頻，在一隻柯基犬的 vlog 裏，有一隻海鷗飛到了相機前卻又突然消失，隨後畫面裏又出現了另一隻，以怪異的方式在行走；在一個建築工地的視頻裏，一輛叉車似乎可以不受周圍物體的影響輕鬆通過。此外還有一個生日派對的場景，參與者的表情和動作看起來都有種說不出的詭異感。

看起來，雖然 Sora 可以生成出色的視頻，但當場景複雜時，它可能會給出一些不符合現實場景的動作。OpenAI 官方也表示，Sora 還有很長的路要走，有很多技術挑戰需要解決 —— 包括前面提到的身體部位的雜亂問題和對物理學的理解水平。

OpenAI 在 Sora 的技術報告中指出，Sora 作爲視頻生成模型在模擬現實世界時面臨一系列挑戰和侷限性。具體來講，Sora 在技術層面存在以下主要侷限：

物理交互的準確性：Sora 在模擬一些基本的物理交互現象時存在不足，例如無法準確模擬玻璃破碎等物理現象。
對象狀態變化的一致性：在模擬如進食等交互時，Sora 可能無法產生正確的物體狀態變化，導致視頻中出現不連貫的視覺效果。
長期樣本的連貫性：在生成較長時間跨度的視頻樣本時，Sora 可能會出現連貫性問題，導致視頻中出現不自然的過渡或物體的突然變化。
物體的自發出現：Sora 有時會在視頻中自發地生成物體，這些物體可能與場景不匹配或在邏輯上不合理。
手部和身體部位的處理：Sora 在處理手部和身體部位時存在問題，如手部可能表現得不自然或與其他物體發生不真實的交互。
計算資源的需求：Sora 生成視頻需要較多的計算資源和時間，這限制了其在實時或快速響應場景中的應用。
模型的泛化能力：儘管 Sora 在某些特定場景下表現出色，但它在泛化到新場景和處理多樣化輸入方面可能還有待提高。
視頻編輯和擴展的能力：雖然 Sora 能夠執行一些視頻編輯任務，如擴展視頻或改變場景設置，但這些功能可能在複雜場景中表現不佳。

由於上述技術侷限，在讓外界驚鴻一瞥後，Sora 的短暫「翻車」似乎也並不令人意外。

作爲一款文本轉視頻模型，Sora 採用了 Diffusion transformer 技術（包括特徵提取、編碼、序列組合等多個步驟）。

與大模型處理文本的原理類似，Sora 將視頻內容分解成一系列 patch（視覺編碼塊），這些 patch 類似於視頻的視覺詞彙，然後，它會對這些 patch 進行降維處理，以便於分析和理解，在這一過程中，Sora 通過去噪技術，從帶有噪聲的 patch 中預測出清晰的原始圖像信息，最終合成爲連貫的視頻。換句話說，Sora 的訓練過程類似於人類的認知過程，這一點讓它極大地優化了視頻生成的效果。

隨着技術的突破，問題會解決。對於推新飛快的 OpenAI 來說，應該用不了很久。

本文來自微信公衆號：極客公園（ID：geekpark），作者：連冉

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。