Project GR00T人形機器人通用基礎模型在今天(3月19日)凌晨舉行的英偉達GTC大會上,創始人兼CEO黃仁勳以人形機器人壓軸,推出人形機器人通用基礎模型Project GR00T和一款基於NVIDIA Thor系統級芯片(SoC)的新型人形機器人開發套件Jetson Thor。就在幾天前,機器人 AI 公司 Covariant宣佈推出80億參數的機器人基礎模型 RFM-1 ,其聯合創始人Pieter Abbeel表示,RFM-1模型可以讓機器人更流暢地轉向新任務,爲全球數十億機器人提供動力。英偉達的GR00T、Covariant的 RFM-1,加上此前OpenAI與figureAI宣佈聯合研發的新一代通用機器人模型,全球機器人通用基礎模型的競爭正拉開序幕。機器人基礎大模型:“機器人變局”關鍵?黃仁勳將GTC大會主題演講的最後主角留給了機器人,宣佈啓動通用機器人003計劃:“這是AI領域最令人興奮的課題。”這預示着AI與機器人深度結合將成爲英偉達最大的目標之一,具身智能的時代來了。人形機器人技術在去年取得了巨大的進步,Diffusion Policy、ALOHA/ACT就是比較有代表性的成果。這得益於模仿學習的突破,讓學界有了收集高質量數據的方法,並發現生成建模技術在機器人領域能運用得很好。同時在機器人運動控制領域sim2real (仿真到現實)也有了非常大的進展。斯坦福Mobile ALOHA機器人團隊成員趙子豪表示:“總的來說,我覺得AI的進步啓發了機器人的進步。”但他同時認爲,目前人形機器人技術仍在早期,距離商業化仍有很長的路要走。那麼當下人形機器人產業發展面臨哪些挑戰?北京航空航天大學副教授、博士生導師陶永表示,硬件的挑戰一方面來自核心零部件,包括高精度伺服電機、伺服驅動器、減速器、控制器,也包括各種傳感器,比如雙目視覺傳感器、激光雷達,末端的力傳感器、觸覺傳感器等,另一方面則是如何將這些硬件進行集成。不過陶永表示,更大的挑戰是軟件層面的,底層架構需要人形機器人實時操作系統,上層需要環境感知能力,不僅需要各種傳感器(力覺、觸覺、視覺)、靈巧手,還需要高精度算法進行實際的感知。同時,機器人還需要精密的運動控制和運動規劃能力,這需要精準感知、精準控制,還涉及與人、與外界交互、全身協同控制等等。南京郵電大學管理學院講師劉德文表示:“目前發展人形機器人的最大問題還是AI的技術問題,人形機器人工作場景中需要處理速度更快,魯棒性、可擴展性和適應性更強的通用型算法。”而最爲核心的挑戰是缺乏“機器人通用基礎模型”。圖靈獎獲得者、中國科學院院士、清華大學交叉信息研究院院長姚期智認爲,目前最大的挑戰是機器人不能夠像大語言模型一樣,通過基礎大模型直接“一步到位”,做到最底層的控制。此外,機器人的算力、多維度感知融合、數據也都是挑戰。

黃仁勳在GTC大會上黃仁勳不久前接受媒體採訪時同樣表示,機器人基礎模型是機器人產業大變局的關鍵。“大模型能生成文字、生成圖像,那麼能生成動作嗎?答案可能是肯定的。如果模型能生成動作,就可以通過理解意圖,生成相應可用的關節。狀態空間模型(SSM)是AI的下一個重點,如果SSM實現突破,人形機器人技術突破就指日可待了。” 黃仁勳說道。陶永認爲,機器人基礎大模型將加速人形機器人的進化。比如原來只能在平地上行走的四足機器人,通過具身智能大模型深度學習,通過反覆學習和測試,能加速其泛化和智能控制的能力,慢慢地可以遷移到雪地裏、沙地上行走。英偉達推出的圖形化仿真環境,就可以將人形機器人的步態、行走等,先在仿真環境中進行訓練,生成一些控制方法,再遷移到實際的人形機器人上,從而加速人形機器人的研發。“在大模型出來之前,我是不看好人形機器人的。因爲你訓練它會幹10000件事,還有第10001件事它幹不了,它對這個世界的觀察、模仿、理解基本是沒有能力的。”360集團創始人周鴻禕表示,但是大模型出來後,“大模型成爲了人形機器人的靈魂”,成爲了人形機器人的核心,“所以人形機器人這個產業在未來兩年會獲得突破性的增長”。英偉達通用基礎模型:秀的是“硬”實力機器人基礎模型是人形機器人的核心和靈魂,不難理解英偉達爲何如此重視人形機器人通用基礎模型。今年2月23日,Figure宣佈與OpenAI共同開發下一代人形機器人模型,一天後,英偉達宣佈成立通用具身智能研究實驗室GEAR。GEAR可能是全球最有錢的具身智能實驗室。GEAR實驗室負責人範麟熙透露,GEAR團隊有足夠的資金一次性解決機器人基礎模型、遊戲基礎模型和生成式模擬仿真,並表示,2024年將是機器人之年、遊戲AI之年、模擬仿真之年。據介紹,GEAR研究團隊專注於四大關鍵領域:多模態基礎模型、通用型機器人研究、虛擬世界中的基礎智能體、模擬與合成數據技術。英偉達有機器人處理器、機器人計算平臺、機器人開發套件以及模擬仿真平臺,還有歷經五年建立起的機器人產業生態夥伴,加上這個最有錢的GEAR,所以英偉達的人形機器人通用基礎模型之路被業界看好。

3月19日,英偉達在GTC上宣佈推出的GR00T的英文全稱是Generalist Robot 00 Technology(通用機器人技術00)。按照NVIDIA官方介紹,這是一個通用基礎模型,希望改變人形機器人學習現實世界的方式,能夠通過理解自然語言文本、語音、視頻和現場演示,然後模仿人類運動或是其他技能。爲了配合Project GR00T,NVIDIA還推出了Jetson Thor計算平臺以及新版lssac平臺,前者基於NVIDIA的Thor SoC,由高性能的CPU集羣以及Blackwell架構的GPU組成,搭載了Transformer引擎,算力達到了800 Teraflop,GPU性能比上一代Jetson Orin高8倍。Isaac是一個端到端的平臺,用於開發、模擬以及部署人工智能機器人,能夠通過基於Isaac Sim的Isaac實驗室,利用GPU加速功能在虛擬環境中模擬測試、訓練模型。OpenAI機器人基礎大模型:強強聯手軟硬互補已經和英偉達在“機器人基礎大模型”展開比拼的是OpenAI。其方式是聯手Figure——是的,OpenAI 最懂模型,而Figure“懂機器人”。Figure被譽爲科技圈大佬欽點的“機器人領域的OpenAI”。該公司成立不到兩年,三輪融資投資人集齊了硅谷科技圈有頭有臉的大人物,公司成立一年即拿出了人形機器人Figure 01。周鴻禕曾這樣評價此二者的合作:Figure AI、波士頓動力等機器人公司主要用舵機來控制和操作機器人關節,有一套小腦邏輯把指令分解成動作序列,來控制機器人如何往前走,如何能夠去拿起物體,但它是基於一定預設規則,如果在這些規則之外,它就不會了。有了OpenAI的GPT加持,機器人不僅僅有了大腦,能夠理解人的意圖,兩家公司的合作還能夠在大腦和小腦之間建立連接,讓機器人在理解和控制執行以及泛化能力上得到極大提升。

​當提問者請求喫東西時,Figure 01 可以從一堆物品中判斷蘋果可以喫,並拿給提問者

事實上,OpenAI在成立早期就試圖建立機器人團隊,但做硬件與軟件畢竟是兩條不同的路。OpenAI 產品與合作伙伴副總裁 Peter Welinder 說:“我們一直計劃迴歸機器人技術,通過 Figure我們看到了一條探索人形機器人在高性能、多模式模型支持下可以實現目標的道路。”“機器人大模型與語言大模型、視覺大模型,文生圖、文成視頻還是有很大差別的。” 陶永表示,因爲要生成動作、生成控制能力,不僅僅是在模擬仿真環境實現就能完成,從模擬環境到現實環境還有很多新的問題,包括與硬件的結合,類似手抓、身體平衡、胳膊的控制等,需要進行調試、進行解決,涉及精密電機控制、傳感器控制等多學科的問題。基於陶永的分析,我們就能理解爲何OpenAI自己不能做機器人基礎大模型而必須選擇一家在機器人領域有經驗和積累的公司,Figure 公司的核心技術來自其CTO傑瑞·普拉特(Jerry Pratt),他從1998 年開始研究機器人,所以才能夠在公司成立一年就拿出驚豔業界的Figure 01。“新進入者”最被看好:一切充滿變量看重人基礎大模型這一人形機器人“靈魂”的還有谷歌DeepMind以及特斯拉。前幾天,谷歌公佈了最新的具身智能進展RT-H,去年7月谷歌DeepMind推出全球第一個控制機器人的視覺—語言—動作(VLA)模型的RT-2,只需要像對話一樣下達命令,它就能在一堆圖片中辨認出泰勒·斯威夫特,並送給她一罐可樂。最新版的RT-H能通過將複雜任務分解成簡單的語言指令,再將這些指令轉化爲機器人行動,來提高任務執行的準確性和學習效率,目前其在一系列機器人任務中的表現都優於RT-2。這幾天,AI機器人創業公司Covariant備受關注,該公司成立於2017年,兩位聯合創始人來自OpenAI,之所以離開 OpenAI,是“希望將AI從比特世界落地到真實世界,打造像人類一樣通過推理來適應現實場景的機器人產品”。3月12日,其推出80億參數的機器人基礎模型RFM-1,可以將其視爲一個視頻生成器。輸入拾取某些物體的命令,系統會使用其訓練數據(形狀、顏色、大小等)來識別面前與該描述最匹配的物體。然後生成視頻,預測自己試圖拿起這個物體時可能發生什麼,並確定最佳行動方案。從目前看, RFM-1 最大亮點就是泛化能力, 它可以接受更多數據的訓練來進一步擴展能力邊界,其擴展的目標是“任何任務”。中國同樣有機會在這場人形機器人基礎大模型的角逐中跑出優異成績。中國科學院院士喬紅所帶領的團隊最近推出了Q系列人形機器人,突破了高爆發一體化關節、AI 賦能設計、機器人大模型、類人柔順控制等核心技術。“神經網絡之父”Geoffrey Hinton最近在牛津大學的公開演講中表示,智能的本質是符號和規則;生物方法(即神經網絡方法)則大不相同,看來,生物的方法戰勝了邏輯的方法。Hinton的判斷,進一步佐證了喬紅院士從生物性的角度去探索和發展類腦智能機器人的思路,有望帶來更優的解題路徑。去年年底,由小米機器人、優必選科技、京城機電、中國科學院自動化所等聯合組建的北京人形機器人創新中心有限公司成立,其核心目標是面向人形機器人核心器件、通用本體、通用大模型、運動控制系統、工具鏈和開源社區等人形機器人行業短板和痛點開展技術攻關。該創新中心透露,近期將發佈第一代通用開放人形機器人本體。賽迪智庫未來產業研究中心人工智能研究室主任鍾新龍在接受媒體採訪時表示,中國大模型領域積累的技術優勢具備向人形機器人賦能轉化的潛能;百度、阿里等互聯網龍頭企業及優必選、智元機器人等機器人初創公司均已展開大模型賦能人形機器人探索;中國業界圍繞物理層、智能層以及電力層三方面協同發力,有望實現人形機器人關鍵核心技術加速突破。是否還有其他公司和機構成爲踢出人形機器人快速發展“臨門一腳”的最佳射手?應該說一切皆有可能,AI和機器人的世界有太多的變量。延伸閱讀:RISC-V生態建設進入2.0時代

視聽電子“駛進”春天

作者丨特約撰稿 李佳師編輯丨趙晨美編丨馬利亞監製丨連曉東

相關文章