看過《蟻人》的朋友肯定會爲蟻人靈活的身姿和矯捷的身手所折服。

現如今,雖然你成爲不了蟻人,卻有機會擁有一位 “類蟻人” 朋友 —— 四足機器人 RealAnt。RealAnt 是一種低成本的四足機器人,可以通過強化學習來完成指定動作。擁有螞蟻般靈活四肢的機器人 RealAnt 一經問世,便廣受好評。

在過去的十幾年裏,機器人學家和計算機學家們試圖利用強化學習(RL)的方法來訓練機器人有效地導航和完成各種基本任務。然而,到目前爲止,製作一個能夠支持 RL 算法且大衆負擔得起的機器人仍相當具有挑戰性。

令人興奮的是,最近研究人員發明了一種四腿機器人,並用它來實現一種低成本的機器人算法。在 arXiv 上發表的一篇論文中提出了相關的新型機器人平臺,這是一個簡單且價格合理的真實世界版 “螞蟻” 機器人模擬環境,通常被用於 RL 研究。

Ote 機器人公司的 RealAnt 機器人平臺是爲實現現實世界中的強化學習而研究和開發的。其擁有完整的解決方案,並有網絡攝像機爲基礎的跟蹤系統。

“我們工作的最初靈感來自 RL 研究,該研究成功地證明了在仿螞蟻以及仿人機器人上,可以通過強化學習從零開始學會走路。”Ote Robotics 的聯合創始人 Jussi Sainio 表示,算法的基本前提是編程,目的是使機器人完成任務的過程變得更容易、更自然,通過確定可用的傳感器測量值、運動動作設定目標,並將它們全部插入強化學習算法,該算法就能解決其餘問題。

降低訓練成本的高效率四足機器人亟待開發

一般來說,大多數機器人的研究是利用昂貴的設備進行的,花費高達數千美元,並不是所有研究人員都負擔得起。與此同時,傳統的控制算法需要易於實現的精確硬件模特,這使得機器人在設計上面臨諸多限制。而強化學習算法能夠在不建立動力學模型的情況下學習控制器,還可以處理噪聲的觀測和控制,優勢有目共睹。

近年來,強化學習領域取得了顯著的進展,在解決具有挑戰的控制問題方面取得了許多成功。這很大程度上取決於模擬器可以用快速測試算法性能。然而,模擬器也有弊端,其常常會對世界做出不切實際的假設。爲了減少因誤判而付出的無用勞動,研究人員們需要一種將強化學習的發展建立在現實世界的問題上的方法。

Sainio 認爲,與模擬器環境相比,沒有一個完整的軟件和硬件組合可以從現實世界的強化學習開始。因此,他們開始構建自己的機器人和接口軟件原型。

基於此,Sainio 和他同事們工作的主要目標是基於現有的基線 RL 解決方案創建一個簡單而低成本的機器人平臺。這樣一個平臺將允許更多的研究人員建造和測試能夠在現實世界中完成各種基本任務的自主機器人。

經過不斷探索,Ote 機器人公司開發了一個最小的低成本四足機器人 ——RealAnt 以及一個物理版本的基準測試平臺。

RealAnt 的優點是顯而易見的,它功能齊全、簡約、成本低廉。此外,它可以自主學習走路,協調地移動腿,並能在給定的環境中感知自己的位置和方向。利用 RL 算法,可以訓練它像真正的螞蟻那樣行動,從而執行各種簡單而有價值的任務。

最初,RL 算法只有在機器人模擬訓練數千小時後才能表現良好。然而,通過計算機科學家的努力,已經能夠用很少的訓練數據來教螞蟻四足機器人 RealAnt 學會行走,從而達到了高樣本效率。這使得在現實世界中直接訓練機器人成爲可能,消除了基於仿真的訓練需求成本。

圖 | 噪聲對降低學習效率的觀測

研究人員們是通過強化學習實驗一步步驗證了自己創建的機器人平臺,並同時提供了一組基準任務的基線結果。通過實驗,他們證明了運用 TD3 算法可以從不到 45 分鐘的經驗中學會行走實相。他們在 MuJoCo 和 PyBullet 中提供了機器人的模擬器版本(具有相同的尺寸、狀態動作空間和延遲噪聲觀測)。

繪製每個任務三次運行的平均值和標準差,TD3 能夠在 40 分鐘內學會所有任務。

實驗中考慮進了三個基準任務:

站直轉動 180 度儘可能快地向前走。實驗發現,TD3 算法能夠成功地學習所有三個任務。學會站立大約需要 12 分鐘的經驗,學會轉身需要 35 分鐘的經驗,學會走路需要 40 分鐘的經驗。

“人們可以把 RealAnt 平臺想象成‘Ant’模擬器環境的真實版本,這是 RL 的一個流行基準。”Sainio 說,他們創建的是最便於在現實世界展開強化學習的機器人平臺之一。

RealAnt 平臺包括機器人接口所需的機器人硬件(電機、傳感器)和軟件堆棧(通信、跟蹤),而已經對外公佈的基線強化學習解決方案就是教它從零開始走路的方法。Sainio 表示,示例解決方案很簡單,對每項學習任務都較少使用 ML 方面的指導,且不用做太多的人工獎勵工程來塑造學習績效,這使得定義新任務變得簡單明瞭。

值得一提的是,RealAnt 平臺的主要優勢在於,它是現成的,而且價格合理。低製造成本和易於組裝的特點使得 RealAnt 可以更便捷地被世界各地的人所使用。此外,與當今市場上更昂貴、更復雜的機器人相比,它容易大規模進行生產部署。

8 個低成本的智能伺服電機移動保 “價” 護航

RealAnt 作爲一個最小的、低成本的物理版本的 “Ant”,其基準研究對現實世界中的強化學習有深刻意義。與 “Ant” 基準測試類似,RealAnt 是一個 8 自由度的四足機器人,並基於易於獲得的電子元件和 3D 打印體。RealAnt 中使用的所有組件都較易得到。

“機器人的身體部位都是三維打印的,它們足夠小,可以用大多數消費者的三維打印機打印。”Sainio 提到,這使得該機器人的生產和改裝成本比採用激光切割或機械加工金屬、塑料板製造的機器人要低很多。由於 RealAnt 設計採用低成本電機,通過限制電機的最大扭矩能夠小心地驅動電機,因此它們能夠承受隨機探索和任務訓練期間的連續粗暴運動。

具體來看,RealAnt 主體由 4 個 3D 打印支腿,8 個 Dynamixel AX-12A 伺服系統(和 8 個 FP04-F2 機架一起銷售)以及 3 個三維打印的上下軀幹構成。機器人的每隻腿由兩個 Dynamixel 伺服關節組成,使用 Robotis FP04-F2 框架相互連接。使用 3D 打印的軀幹頂板和底板將四個腿部組件連接在一起。3D 打印機易於使用,允許快速打印和經濟高效的製造。零件可以使用消費類 3D 打印機(Creality Ender 3 v2)以 PLA(Prusament 燈絲)打印。

圖 | RealAnt 機器人的示意圖細節(所有單位均爲毫米)

令手殘黨倍感欣慰的是,RealAnt 可以在不到一小時的時間內使用十字螺絲刀、切邊鉗這些組件組裝起來。這比很多同類型機器人的組裝更加友好。

另一方面,上文提到,目前可供研究的機器人平臺要麼非常昂貴,要麼無法處理強化學習中探索控制的濫用。而此次開發的用於強化學習基準測試的最低成本物理版本平臺價格上是絕對的實惠。RealAnt 的材料成本僅爲 350AC(410 美元)。

RealAnt 機器人比其他支持 RL 的現有四足類機器人更便宜的原因之一是它的身體使用 8 個低成本的智能伺服電機移動,而不是更昂貴和複雜的電機。此外,爲了追蹤機器人的位置和方向,還利用了可以輕鬆打印在紙上的 AR 標籤和廉價的外部攝像頭。

在真實世界與模擬環境的出色表現有望破圈

經過反覆測試,Sainio 和他的同事在模擬和真實世界的實驗中綜合評估了 RealAnt,事實證明,該機器人在所有這些測試中都表現得非常出色,顯示出廣闊的應用前景。

到目前爲止,大多數用於機器人應用的 ML 和 RL 技術主要是在模擬環境中訓練的。研究人員希望 RealAnt 能開闢新的令人興奮的可能,使機器人可以在模擬和物理世界中一同進行訓練和測試。

一個好消息是,RealAnt 的硬件和軟件都是開源的,完全組裝好的機器人也可以在 Ote Robotic 的網站上輕鬆在線購買。這爲更多研究者得到並使用它提供了很大便利。

此套餐包括:一個完全組裝的 RealAnt V1 機器人、帶有 8 個 Robotis Dynamixel AX-12A 智能執行器、Robotis OpenCM9.04A 板、USB 和電源線、一個機器人標籤和一個參考標籤板、12V 5A 電源。

Sainio 和他的同事們創建的機器人平臺可以很快幫助其他團隊在真實的機器人上測試他們的 RL 和 ML 算法。研究人員們希望 RealAnt 未來可以促進更廣泛的應用和發展,例如在農業環境中,自主學習的機器人可以用來根除雜草和收穫植物,幫助促進生物多樣性,甚至可能減少殺蟲劑的使用。

Sainio 說:“我們現在打算對 RealAnt 平臺進行微調和擴展,以增強硬件的能力,比如讓機器人擁有更先進的感知能力和可能的操縱器,並在現有在線平臺的基礎上同時運行多個機器人。同時,我們也在研究如何讓 RealAnt 更快地完成其他更具挑戰性的任務,進一步縮短訓練時間。”

相關文章