美陸軍開發出高效機器人訓練模型

美國陸軍面向未來多域作戰概念研發了一種高效的地面機器人學習模型，該模型提出基於強化學習的策略，可有效減少當前訓練強化學習策略的不可預測性，使自主智能體能夠推理並適應不斷變化的戰場條件。

強化學習是智能體（Agent）以“試錯”的方式進行學習，通過與環境進行交互獲得的獎賞指導行爲，目標是使智能體獲得最大的獎賞。強化學習技術具備解決複雜問題的能力，近年來在如圍棋、象棋和電子遊戲等領域有較爲長足的發展。美國陸軍將這種強化學習技術應用在地面機器人面臨着兩個巨大挑戰。首先是算法的限制。在強化學習中，策略梯度方法（Policy Gradient Methods）是連續空間可伸縮算法的基礎，但是現有技術無法支持更廣泛的決策目標，例如風險敏感性、安全約束、對先驗知識的探索和發散。其次就是數據量的問題。強化學習需要大量的樣本複雜性，而美國陸軍多域作戰概念和下一代戰鬥車輛（NGCV）項目目前數據匱乏並不支持現有訓練機制。

在陸軍多域作戰概念和NGCV項目中應用強化學習，訓練機制必須提高連續空間中的樣本效率和可靠性，ARL通過將現有的策略搜索方案推廣到通用工具，取得了重要突破。研究人員爲通用程序開發了新的策略搜索方案，並且還確定了其樣本複雜度。由此產生的策略搜索方案減少了獎勵積累的波動性，形成了對未知領域的有效探索和先驗的機制。值得注意的是，地面機器人獲取數據的成本很高。減少獎勵積累的波動性，確保以有效的方式探索未知領域，或者吸收以前的經驗，都將有助於打破強化學習中現行實踐的樣本效率壁壘。通過減少隨機抽樣的數量，可以實現策略優化。

這項研究爲強化學習中的經典策略梯度定理做出了貢獻。裝備有強化學習功能的自主機器人將能夠協助戰士在未來戰場上進行偵察探索和風險評估。研究人員下一步計劃在強化學習中將更廣泛的決策目標納入多主體設置，並研究強化學習主體之間的交互設置如何在團隊之間產生協同和對抗性推理。

來源 | 美國陸軍研究實驗室

圖片 | 互聯網

作者 | 白子龍北方科技信息研究所

編輯 | 陳培

注：原文來源網絡，文中觀點不代表本公衆號立場，相關建議僅供參考。

更多精彩內容，請回復關鍵詞查看：

綜合分析

戰略與規劃

科技管理

國防創新

軍事理論

人工智能

陸軍

海軍

空軍

航天

網絡空間

電子信息

核武器

高超聲速

無人系統

精確打擊

防空反導

新概念武器

生物與醫學

戰例與演習

先進材料

製造

基礎科學

技術

先進動力

與能源

試驗鑑定

軍事科學院軍事科學信息研究中心微信平臺

覺得不錯，請點在看↓↓↓

美陸軍開發出高效機器人訓練模型

熱門新聞

週熱門

美陸軍開發出高效機器人訓練模型

智譜清言不敵ChatGPT，商業化仍難解道阻且長

焦點分析｜愛奇藝的Q1，除了佳績也有焦慮

氪星晚報｜618前抖音淘天可實現互聯互通；小鵬汽車正式進入法國市場；美初創公司Ampere與高通達成合作，新芯片將於明年推出

美團香港外賣KeeTa日單量峯值破10萬，中東將是出海下一站

LP與GP共贏、多贏已經是奢侈品了？

阿里蔣凡仍然是爽文男主

騰訊即將迎來一場硬仗了

即時零售競爭激烈，達達進一步“京東化”

金麥特完成超4億元B輪融資，海外訂單佔比超30% | 36氪首發

8點1氪丨康師傅方便麪5月將全線漲價；12306回應火車票改簽也要收手續費；蘋果回應iOS 17.5恢復已刪除多年的照片

AI重構一週年，百度想做好這三件事

中國的企業軟件出海有機遇還是會抑鬱？

大多數CIO在制定IT戰略計劃時常犯的錯誤

字節挑起了一場戰爭

氪星晚報｜5月20日晚8點，天貓618現貨開賣；馬斯克將訪問印尼爲星鏈服務揭幕；康師傅方便麪將大幅漲價？公司回應：未接到相關通知

熱門新聞

週熱門