人形機器人，也迎來ChatGPT時刻？

圖片｜電視劇《西部世界》劇照

©產業象限原創

作者丨錢江

來源丨產業象限

2024年才一開年，一款名叫Mobile ALOHA的機器人就因爲“會炒菜”在X上出了名，還被各種大V輪番轉發。

▲Mobile ALOHA 在做菜圖源：斯坦福大學

可能很多人會有疑問，都2024年了，機器人會炒菜早已不是什麼新聞，爲什麼這款機器人會如此備受關注？原因很簡單，因爲Mobile ALOHA的“炒菜”技術，和之前的炒菜機器人完全不是一回事。

傳統炒菜機器人大多是滾筒結構，需要人工進行備菜，機器人按照設定的程序將配菜按順序倒入滾筒，然後滾筒翻滾，在翻滾的過程中，機器人的調料瓶可以自動擠出調料。

但Mobile ALOHA卻可以使用人類的案板和刀具、使用人類的竈具和炒鍋，它也沒有專屬的調料瓶，而是如人類一樣，用“手”拿起鹽罐和醬油。總之，它如同真人一般，完成了一整套炒菜的流程。

只這一點，Mobile ALOHA就已經完全顛覆了傳統機器人的工作方式。

2021年8月，馬斯克首次公佈了特斯拉的人形機器人計劃。之所以選擇人形機器人，是因爲這是當前最適合人類生活環境的機器人形態，它不需要爲了適配機器人的工作而改造環境，也不必爲機器人單獨製造額外的工具。

它完全可以像人一樣，走人類所走的路、用人類的工具參與勞動。

但人形機器人一直存在一個很大的問題——學人走路很簡單，學人做事卻很難。

1月中旬，馬斯克曾在X上展示了特斯拉的人形機器人Optimus Gen 2疊衣服的視頻，在視頻中，Optimus Gen 2 的動作仍然笨拙，並且這套展示還不是機器人自主執行的操作。

▲馬斯克X平臺截圖

作爲對比，Mobile ALOHA表現出來的能力，就更加具有衝擊力了。

而Mobile ALOHA之所以能有如此亮眼的表現，關鍵在於斯坦福團隊使用了行爲克隆（BL）的方法，由人帶着機器人針對某個動作重複操作50多次，之後機器人就能夠自主完成相應的動作。

這種由人類直接參與的訓練方式，與去年引爆ChatGPT的路徑有許多相似之處。

2023年初，OpenAI推出的ChatGPT引爆全球，推動這一點的關鍵技術就是“人類強化反饋學習”，它通過將人類反饋作爲“獎勵”和“懲罰”引入AI訓練，打破了原來大模型訓練的瓶頸。

而現在，隨着行爲克隆（BL）方法在機器人訓練上的使用，曾經一直桎梏人形機器人訓練的技術也迎來新的突破。似乎，人形機器人正在迎來自己的“ChatGPT時刻”。

這一次，終於輪到了華人？

在世界科技發展的前沿，華人的身份總是在國內受到額外的關注。

比如大家會關注OpenAI的華人工程師，關注馬斯克超過三分之一的華人團隊，關注時代週刊“全球百大AI人物”榜單中的華人入圍數量。

雖然華人在世界科技發展的前沿佔據重要的地位，也做出過許多不可磨滅的貢獻，但到目前爲止，引領世界科技浪潮的華人角色仍然屈指可數。

但這一次不同，如果行爲克隆（BL）成爲打開人形機器人大門的鑰匙，那華人也將站在世界科技變革的中心。

作爲一款家政機器人，Mobile ALOHA由斯坦福大學的華人團隊研發，其核心成員包括Zipeng Fu、Tony Z.Zhao和他們的導師Chelsea Finn。其中Zipeng Fu是項目共同負責人，他是斯坦福人工智能實驗室計算機學博士生，也是谷歌Deep Mind學生研究員。Tony Z. Zhao則是斯坦福大學的計算機科學博士生。

▲Mobile ALOHA主創團隊

雖然我們前面在討論人形機器人，並認爲Mobile ALOHA能夠爲人形機器人的訓練帶來變革，但從外觀上講，Mobile ALOHA和“人形”幾乎毫不相關。

Mobile ALOHA的構造極其簡單，1個移動底座（AgileX Tracer AGV）；兩隻手臂（ViperX 300），配有2個腕部攝像頭和1個頂部攝像頭，然後在底座上搭配有機載電源和計算設備。

它的實物長這樣：

▲Mobile ALOHA樣機

Mobile ALOHA的操作模式分爲兩種，一種是真人遙控操作，另一種是全自動操作。

在遙控模式下，操控者可以將自己的腰部和底座連接，通過扭動腰部直接驅動輪子實現移動控制，同時，操作人員可以通過後端的機械臂控制前端的機械臂。而在自動模式下，這一切都由計算機在統一操控。

和特斯拉Optimus Gen 2的演示視頻並非機器人獨立操作的一樣，X平臺上廣泛流傳的Mobile ALOHA的演示視頻也並非由機器人獨立完成，而更多是兩種模式混合下的操作結果。

▲X平臺截圖

但即便如此，Mobile ALOHA的操作，也給機器人訓練帶來巨大的突破。比如像炒個蝦仁、擦拭酒瓶、沖洗盤子等簡單的動作，只需要操作員手把手帶着機器人重複50次，機器人就能夠學會並自主操作。

這個過程，就類似小時候，媽媽手把手帶着我們握筆和寫字一樣。但模仿學習的過程對於人類來說，其實並不容易，對機器人來說就更是如此了。

2018年，波士頓動力一段機器人翻跟頭、跨越障礙的視頻在網絡上走紅，成爲國內對人形機器人最早的科普。大家當時普遍驚訝于波士頓動力的機器狗，對於特技動作的控制能力，但實際上，對於機器人來說，實現翻跟頭、跳躍、鞠躬，要比實現做家務簡單多了。

這種現象有一個專有名詞——“莫拉維克悖論”。

這個概念是人工智能和機器人學領域的先驅漢斯·莫拉維克提出的，它描述了在計算機和機器人系統中一個有趣且非直觀的現象：對於人類來說簡單的感知和運動任務，對計算機和機器人而言卻異常困難；而相反，人類認爲複雜的邏輯和抽象思維任務，對計算機來說卻相對容易。

Mobile ALOHA之所以能夠如此輕鬆地完成一些簡單動作，關鍵在於斯坦福團隊在機器人模仿學習能力上的突破。

模仿學習有幾個“難啃”的骨頭。

比如複雜的感知能力和環境適應能力，模仿學習要求機器人需要高度發達的感知能力，包括視覺、聽覺、觸覺等多種感官輸入的綜合處理，以理解和模仿人類行爲。

比如精確的動作複製能力，人類的動作細微且流暢，機器人如果要精確複製，不僅需要複雜的機械結構，還需要高度精確動作控制算法。

最後還有機器人的多樣性和泛化能力，人類可以將學過的技能在多種不同場景中複用，但對於機器人來說，每一個新的場景都是一次新的學習。

爲了應對這些難題，機器學習領域開發了各種不同的模仿學習方法，其中主流的方法有三個，包括行爲克隆（BL）、逆強化學習（IRL）和生成對抗模仿學習（GAIL）。

對於Mobile ALOHA，它的目標只是爲了完成簡單動作，泛化要求低，且希望在短期內看到效果。所以他們選擇了行爲克隆（BL）的方法。

簡單來說，行爲克隆是一種將觀察映射到行動的方法。比如我們看到有人舉着手向你迎面走來，你可能會下意識地擊掌，比如在你打電話的時候，別人給你任何東西，你都會下意識地接住。

行爲克隆就是利用這個原理，將一部分場景與機器人的行爲進行對應。確定了模仿學習的路徑後，Mobile ALOHA其實還有一些問題需要解決。

首先是移動問題。在傳統的行爲克隆學習方法裏，機器人可以學習各種原始技能，比如簡單的“拾取”和“放置”，但是在現實生活中，更多場景需要機器人具備調動全身運動的靈活性，比如煎完蝦滑後，需要機器人移步到身後的餐桌，將蝦滑倒入碗中，這就要求機器人會舉起鍋、移步、轉身、反手倒入等。

Mobile ALOHA通過將其安裝在輪式底座上，擴展了原始ALOHA的功能，即低成本、靈巧的雙手操縱木偶裝置。

其次是如何在短時間內實現高效率數據蒐集的問題。Mobile ALOHA通過執行監督行爲克隆，與現有靜態ALOHA數據集的聯合訓練，可以提高移動操作任務的能力。

最後則是複合性誤差的問題。前面提到行爲克隆模仿學習將“狀態”和“行爲”深度綁定，所以一旦機器人的“行爲”產生誤差，就可能改變預期的狀態，從而下一個行爲產生偏差。

爲了解決這一問題，斯坦福團隊從神經科學獲得靈感，將獨立的動作組合成一個單元，簡單地說，就是將一系列“狀態”進行打包，以單元爲單位執行所有“動作”，這樣就大大降低了誤差，提升執行效率。

這一套方法叫做ACT算法（Action Chunking with Transformers，簡稱ACT），它的核心思想是將複雜的決策過程分解成更小、更易管理的“行動塊”（action chunks），從而提高決策的效率和質量。

Mobile ALOHA不僅讓大衆享受了一場機器人做飯的視覺“盛宴”，更酷的是它讓機器人的模仿學習能力又上了一個臺階，它在數據和算法層面的創新，爲機器人迎來“ChatGPT時刻”帶來更多可能性。

人形機器人，走到爆發前夜？

2018年，從波士頓動力依靠機器狗火出圈之後，機器人賽道就開始被更多行業所關注。2022年10月，特斯拉首款人形機器人在AI Day上初次亮相，將這個賽道徹底推向高潮。

從此之後，從太平洋的東岸到西岸，各類機器人創業公司層出不窮。

一直以來，機器人賽道都在快速發展，且從來不缺競爭者。

比如特斯拉的人形機器人，2022年登上AI Day的舞臺時，它還如一個老人步履蹣跚，需要人扶着；但到了2023年，Optimus Gen 2就已經能夠和人類揮手致意，甚至90度彎腰屈伸。

1月底，Magic Lab人形機器人“翻跟斗”的視頻在網上爆火，這是一家中國的人形機器人公司，因爲跳躍、後空翻等場景的優秀表現，被網友稱爲波士頓動力的挑戰者。

▲Magic Lab人形機器人

這樣的機器人，甚至還會製作咖啡“拉花”。

▲Magic Lab人形機器人的咖啡拉花

再往前看，2023年8月，宇樹科技發佈H1人形機器人，它的行走速度超過1.5m/s，潛在的運動性能可以達到5m/s以上。

▲宇樹科技人形機器人

2023年12月底，國內人形機器人公司優必選在港交所上市，被稱爲“人形機器人第一股”。按照規劃，優必選的人形機器人主要聚焦在工業製造、商用服務和家庭陪伴等三大場景。

而回顧整個2023年，機器人的技術進步和產業發展也被市場普遍認爲是除了AI和商業航天之外，全球範圍內最重要的技術發展。

所以儘管如今人形機器人還處在起步階段，但其中蘊藏的巨大潛力卻早已經掩蓋不住。

根據IFR和中國電子學會數據，參照其他電子產品滲透率超過20%後將爆發式增長，2023—2030年，按年均複合增長率30%測算，預計到2030年，我國人形機器人市場規模有望達約8700億元。

▲圖源：中商產業研究院

在這樣的背景下，人形機器人及配件相關的投融資活動也相當活躍。

根據中商產業研究院最新統計數據顯示，“截至2023年11月底，中國智能機器人行業投資事件數量達139件，投資金額達844.62億元，投資領域包括人形機器人、智能仿生機器人、智能機械手、智能協作機器人等。”

到了2024年，雖然時間過去還不到一個月，人形機器人賽道卻已經產生了2筆大額融資。

先是國內人形機器人研發公司“星動紀元”宣佈獲得由聯想創投領投，金鼎資本、清控天誠跟投，老股東世紀金源超額追投的超億元天使輪融資。不久之後，來自挪威的人形機器人初創企業1X Technologies（簡稱：1X）也宣佈完成了1億美元的B輪融資。1X在2023年就曾獲得由OpenAI創業基金領投的2350萬美元融資，成爲OpenAI投資的第一家硬件公司。

資本市場對人形機器人青睞有加，因爲人形機器人賽道落地不僅會改變生產和生活方式，其衆多零部件組建的上下游生態，也會形成一個巨大的配件生態供應鏈市場。

根據阿里雲《中國機器人產業圖譜及雲上發展研究報告》顯示，機器人產業鏈主要分爲上游核心零部件研發與生產、中游本體制造和系統集成，以及下游各行各業的具體應用等三方面，每一個環節都充斥着配件市場的新機遇。