機器人ChatGPT來了,80億參數、前OpenAI人員經數年打造

機器之能

嚴格地說,是“拾取與放置任務”版本的ChatGPT來了。除了自然語言交流,還能像Sora一樣生成視頻。

機器人 AI 公司 Covariant CEO Peter Chen ‍坐在一個聊天機器人面前,界面和 ChatGPT 的很像。

“給我看看你面前的運送箱,” 他輸入一段文本。然後出現了一段視頻,一個機械臂懸在一個裝有各種物品的運輸箱上——裏面有一雙襪子、一管薯條和一個蘋果

聊天機器人可以和你討論它看到的物品,也可以操縱它們。接着,Chen 要求它去抓一個水果,只見機械臂伸向蘋果,輕輕抓住蘋果後將它移到附近的另一個箱子裏。

這個聊天機器人是該公司邁向“機器人 ChatGPT ”的重要一步。人們希望 AI 最終能夠解決長期以來的編程難,並讓它們做更多的事情。“在這一點上,說基礎模型是機器人技術的未來是沒有爭議的。” Chen 說。

今天,Covariant 正式宣佈推出機器人領域的通用基礎模型 RFM-1。因爲整合了語言數據,Chen 用簡單英語就能指導機器人完成揀選工作。

更爲重要的,“基礎模型”意味着 RFM-1 可以接受更多數據的訓練來完成更多的事情——目前都是關於倉庫操作的任務,因爲這就是它所接受的訓練,但它的功能可以通過向其提供更多數據加以擴展。

“對於完成各種拾取和放置任務來說,現有的系統已經足夠快速和靈活。” Covariant 聯合創始人、機器人學習先驅  Pieter Abbeel 說,像 RFM-1 這樣的模型可以讓機器人更流暢轉向新任務,走得更遠。所謂遠,既包括完成任何任務,也包括接入任何具身(不排除人形機器人),爲全球數十億機器人提供動力。

野心不小的 Covariant 成立於 2017 年,由加州大學伯克利分校電氣工程和計算機科學教授 Pieter Abbeel 和他的三位華人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang 創立。

Abbeel 在 2016 年成爲 OpenAI 早期員工,就在 Chen 加入該公司一個月後。Rocky Duan 也曾擔任 OpenAI 的研究科學家。後來他們離開 OpenAI,希望將 AI 從比特世界落地到真實世界,打造像人類一樣通過推理來適應現實場景的機器人產品。

兩位聯合創始人,總裁兼首席科學家Pieter Abbeel(左)和 CEO Peter Chen(右)

四位創始人,從右到左:Pieter Abbeel (總裁兼首席科學家)、 Peter Chen(CEO)、Rocky Duan (CTO)以及 Tianhao Zhang

Covariant 核心技術是被稱爲“ Covariant Brain ”的機器人大腦(軟件),主要部署在工業機械臂上。最初他們專注於揀選用例是因爲可以創造真實價值——客戶願意掏腰包支付軟件費用。不過,對於 Covariant 來說,最令人興奮的部分是過去四年積累的大量現實世界的數據。

“完成我們正在做的事情的唯一方法是讓機器人部署到世界各地真實客戶現場,收集大量數據,”Abbeel 說。“這使我們能夠訓練一個具有獨特能力的機器人基礎模型。”

與 ChatGPT、谷歌 Gemini 和其他聊天機器人一樣,機器人大軍收集的來自真實世界的數千萬條高質量多模態機器人數據(包括靜態數據、動態視頻、關節角度、力讀數、吸盤強度等機器人操作中涉及關鍵數據),訓練出 80 億參數規模的 RFM-1 ,可以幫助機器人更像人類一樣思考。

在真實世界中接觸到各種拾取和放置物體對象,比如易變形、被高度遮擋、材質各異、不規則外形等,建立對真實物理世界的理解。

在不斷變化的倉庫環境中 24/7 全天候運行,系統也可以發現實驗室的環境中難以遇到的長尾邊緣案例。

我們可以將 RFM-1 視爲一個視頻生成器(就像 Sora )。輸入拾取某些物體的命令,系統會使用其訓練數據(形狀、顏色、大小等)來識別面前與該描述最匹配的物體。然後生成視頻,預測自己試圖拿起這個物體時可能發生什麼,並確定最佳行動方案。

下面是一個類似圖生視頻功能。輸入初始圖像(類似圖片提示),RFM-1 即可生成相應的動態視頻。本質上是一種模擬,以過去所有訓練數據爲基礎。

上面兩張圖都是作爲輸入的初始圖片,對應的下方動態內容是模型的輸出,預測自己執行這一任務會是什麼樣子。

再比如,如果你想知道把一個圓柱體的物品放到傳送帶上會發生什麼?也可以讓 RFM-1 生成視頻,它能準確顯示圓柱體翻轉和滾動的樣子(比 Sora 還精準),因爲在此之前它已經看過很多東西被放置在不同傳送帶上後的狀態。這些視頻在倉庫業務中可能沒有實際用途,但它生動顯示出機器人對周圍世界的理解。

無論是輸入的是文本、語音、圖片還是視頻等,RFM-1 都會生成相應的文本、圖片、視頻甚至操作命令。

除了生成視頻的能力,現在任何人都可以在幾分鐘內通過自然語言指導機器人執行特定操作。操作員用簡單的英語指示機器人拾取某些物體。

在遇到問題時,RFM-1 甚至賦予機器人求助的本領。它們會將遭遇的困難直接告訴操作人員,並根據新建議嘗試完成任務。

值得注意的是,雖然 RFM-1 最大亮點就是泛化能力,但泛化能力有限——“......它目前不能泛化到完全新的對象或情況。”  Abbeel 表示。換句話說,如果你希望機器人拿起一顆螺絲並把它擰進去,或者剝一塊生薑,這並不是一個真正有關拾取和放置問題,RFM-1 暫時無能爲力。

目前, RFM-1 也主要銷售給只做某些倉庫任務的公司。另外,就像 ChatGPT 也會有幻覺並出錯,RFM-1 也有不理解要求並掉落東西的時候。錯誤的風險與成本取決於場景,製造等領域的容錯率非常低。

不過,Abbeel 相信,只要有足夠的數據,有用的世界模擬將是可能的。“從現在起的 5 年裏,我們建造的將是唯一一種任何人都會使用的模擬器。”這是一個更強大的模擬器,一個從建造之初就帶有碰撞檢測等元素的模擬器。

所有這些東西都很難以任何方式構建到你的物理引擎中,更不用說讓事物看起來像真實世界中的渲染器——“在某種意義上,我們正在走捷徑。” 爲了擴展 RFM-1 的能力,以實現爲“全球數十億機器人”提供動力的基礎模型的長期願景,下一步是向它提供更多數據。

“我們基本上已經構建了一個數據收集引擎,”Abbeel 說。“如果你願意向我們提供不同類型的數據,我們也會收集這些數據。” 但是,這也會導致另一個侷限性 —— 商業可行性。1X AI 副總裁 Eric Jang 提到過目前三種擴張機器人部署規模的路子。

除了耳熟能詳的傳統編程方法,一種是以特斯拉、1X、Figure.ai 這些人形機器人爲代表的全棧路線(既做本體硬件也研發通用系統軟件),另一種就是 Covariant 這種純軟的方式——建立一個“全能的大腦”控制機器人,每臺機器人的硬件供應商都會來找你,要求接入“全能大腦”的 API 。

如果你能建立一個別人無法建立的模型,就能獲得豐厚的軟件利潤,每個人都給你他們的數據。GPT-4 可能是最好的例子。但是,這種方法的缺點是涉及大量數據,你的硬件合作伙伴可能不想給你數據,他們的客戶也不想給你數據。

RFM-1 目前尚未部署在人形機器人上,雖然它可以學習控制訓練數據中沒有的類似硬件(甚至人形機器人?),但一家人形機器人公司又會基於什麼樣的動機願意將數據共享給你呢?

對此,Chen 表示,“我們的宗旨是幫助他們走進現實世界。”“我認爲,真的沒有多少公司擁有 AI,可以讓他們的機器人在生產環境中真正自主。如果他們想要強大、能夠幫助他們進入現實世界的 AI,我們確實是他們的最佳選擇。”

也就是說,雖然每個機器人公司都可以單獨訓練自己的模型,但對於任何試圖實現與現實交互操作的模型來說,其性能可能遠不如使用 RFM-1 。

本文來源:機器之能,原文標題:《機器人ChatGPT來了,80億參數、前OpenAI人員經數年打造》

相關文章