OpenAI Sora：“原始版”世界模擬器我們離黑客帝國還有多遠？

春節假期臨近尾聲。面對持續進攻的谷歌等對手，OpenAI堪稱放出了自ChatGPT有史以來最強的大招——Sora。

Sora是OpenAI自研的文生視頻擴散模型，可以生成不同長寬比和分辨率的高質量、高保真視頻，長度可達1分鐘。在一些行業觀察人士眼裏，Sora不僅性能遙遙領先於競爭對手，甚至可以被視爲一款“世界模擬器”。

Sora：大力出奇跡的產物

剛剛發佈Gemini 1.5 Pro的谷歌，沒有嚐到半點甜頭。剛剛官宣更新幾個小時，OpenAI就拿着Sora來炸場，和Gemini有關的消息，基本都被埋在了鋪天蓋地的Sora新聞流裏。

據一些觀察人士推測，OpenAI可能早在去年3月就已經完成了Sora的開發，所以才能在公關戰中穩穩佔據主動權。

Sora到底優秀在哪裏？簡單來說，它是一個“大力出奇跡”的產物。

Sora結合了擴散模型（DALL-E3）和轉換器架構（ChatGPT）。通過這種組合，該模型可以像ChatGPT處理文本一樣處理視頻（即圖像幀的時間序列）。

最令人印象深刻的特點是它能夠逼真地模擬物理世界（OpenAI 將其描述爲 “新興的模擬能力”）。在此之前，還沒有任何文字視頻模型能與之相媲美。

例如，Sora“可以在單個生成的視頻中創建多個鏡頭，準確地體現人物和視覺風格”。它可以製作長達1分鐘的視頻，但你也可以隨心所欲地製作短視頻。可以製作不同分辨率的豎版、方形和水平視頻。而且計算量越高，視頻質量也會越高。

AI科學家、創業者賈佳亞在社交媒體上表示：Sora基於視頻的三維結構分解壓縮，用不同分辨率，不同時長，不同場景的各類視頻大量訓練diffusion model。在學術界連VIT的256*256的分辨率都沒法改的情況下，Sora直接用上了高清以及更大的分辨率，這沒幾千上萬張H100都不敢想象如何開始這個項目。

Sora能夠學習真實世界的物理規則

OpenAI表示，Sora不僅能理解提示中出現的風格、場景、角色、物體和概念等，還能理解“這些事物在物理世界中是如何存在的”。

Sora通過海量視頻，以梯度下降的方式在神經參數中隱含地學習物理引擎。Sora是一個可學習的模擬器，或稱“世界模型”。亦即，Sora可能已經學會了一套隱含的物理規則，爲視頻生成過程提供信息。

毫無疑問，這是AI理解世界的關鍵一步。OpenAI在博文的最後寫道：Sora是能夠理解和模擬現實世界的模型的基礎，我們相信這種能力將成爲實現AGI的重要里程碑。

在OpenAI的Dalle-3圖像生成器所使用的擴散模型版本和GPT-4基於變換器的引擎的支持下，Sora不僅能按照提示要求製作視頻，而且還能顯示出對電影技術的熟練掌握。

這就是講故事的天賦。在另一部根據“渲染華麗的珊瑚礁紙藝世界，到處都是五顏六色的魚和海洋生物”的提示製作的視頻中。該項目的另一位研究員Bill Peebles指出，Sora通過拍攝角度和時機的選擇，創造了一種敘事的推動力：

實際上有多個鏡頭的變化——這些變化不是拼接在一起的，而是由模型一次性生成的。我們沒有告訴它要這麼做，它只是自動這麼做了。

Sora不僅能根據文本製作圖像和視頻，或將圖像和視頻轉換爲其他視頻，而且還能以通用、可擴展的方式完成這些工作，這一點與競爭對手不同。

這種通用性和可擴展性促使人們預測人工智能將顛覆好萊塢和整個電影製作。考慮到進步的速度，想象一下幾個月後人工智能模型能夠製作出長達5或10分鐘的多場景、多角色複雜視頻並不是什麼瘋狂的事情。

目前Sora還在接受安全檢查和對抗性測試，沒有正式發佈。OpenAI希望從“世界各地的政策制定者、教育工作者和藝術家”那裏收集反饋意見。他們還在開發一種檢測分類器來識別Sora製作的視頻，並研究如何防止錯誤信息。

要想讓文字視頻威脅到真正的電影製作，恐怕還需要很長一段時間。你不可能把120個一分鐘長的Sora片段拼接成一部連貫的電影，因爲模型不會以完全相同的方式對提示做出反應，因此無法確保輸出視頻的連續性。

但時間限制並不妨礙Sora和類似的軟件顛覆TikTok、Reel和其他短視頻平臺的生產方法。