英偉達“網紅研究員”：2024最大亮點是機器人，“具身智能”還有三年

來源：華爾街見聞　趙穎

“以機械臂作爲物理輸入/輸出設備的多模態LLM、彌合 System 1和System 2差距的算法．．．．．”，2024年機器人技術將進一步迅猛發展。

2024，除了大模型繼續狂飆外，機器人發展也將迎來高潮。

去年年底，英偉達“網紅研究員”、OpenAI第一個實習生Jim Fan發推文稱，除了大模型，2024年最重要的就是機器人，我們距離“具身智能”的ChatGPT時刻大約還有三年時間。

Jim指出，長期以來，人們深受“莫拉維克悖論”（Moravec‘s paradox）的困擾，這是一種和人們直覺相悖的現象，即“人類覺得容易的任務對人工智能來說卻極其困難，反之亦然”。

但是Jim樂觀地預測，2024年將成爲人工智能界全面崛起反擊這一悖論的元年，Jim表示“我們不會立即獲勝，但我們將走上獲勝之路”。

同時，Jim列舉了2023年關於未來機器人的基礎模型和平臺的發展：

1、以機械臂作爲物理輸入/輸出設備的多模態LLM：VIMA、PerAct、RvT（英偉達）、RT-1、RT-2、PaLM-E（谷歌）、RoboCat（DeepMind）、Octo（伯克利、斯坦福、CMU）等。

2、彌合 System 1（負責低級控制）和 System 2（負責高級推理）之間差距的算法（使得系統能夠利用高級推理進行決策和理解，並將這些決策轉化爲實際的操作和控制）：Eureka（英偉達）、Code as Policies（谷歌）等。

3、在強大硬件方面取得的驚人進展：特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree等。

4、數據一直是機器人技術的致命弱點，研究界正在共同策劃下一個 ImageNet（人工智能深度學習取得突破的關鍵項目），如開放Open X-Embodiment （RT-X）數據集。雖然數據集還不夠多樣化，但邁出了重要的一步。

5、模擬和合成數據將在解決機器人靈巧性乃至整個計算機視覺問題上發揮關鍵作用。

（1）NVIDIA Isaac可以以比實時快1000倍的速度模擬現實，傳入的數據流隨着計算規模的增加而擴展；

（2）通過硬件加速的光線追蹤可以實現逼真的效果。逼真的渲染還帶有免費的地面真實註釋，如分割、深度、3D姿勢等；

（3）模擬器甚至可以將真實世界的數據擴大，創造更大的數據集，從而大大減少昂貴的人工演示工作。MimicGen（英偉達）是一個典型的例子。