美國陸軍面向未來多域作戰概念研發了一種高效的地面機器人學習模型,該模型提出基於強化學習的策略,可有效減少當前訓練強化學習策略的不可預測性,使自主智能體能夠推理並適應不斷變化的戰場條件。

強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行爲,目標是使智能體獲得最大的獎賞。強化學習技術具備解決複雜問題的能力,近年來在如圍棋、象棋和電子遊戲等領域有較爲長足的發展。美國陸軍將這種強化學習技術應用在地面機器人面臨着兩個巨大挑戰。首先是算法的限制。在強化學習中,策略梯度方法(Policy Gradient Methods)是連續空間可伸縮算法的基礎,但是現有技術無法支持更廣泛的決策目標,例如風險敏感性、安全約束、對先驗知識的探索和發散。其次就是數據量的問題。強化學習需要大量的樣本複雜性,而美國陸軍多域作戰概念和下一代戰鬥車輛(NGCV)項目目前數據匱乏並不支持現有訓練機制。

在陸軍多域作戰概念和NGCV項目中應用強化學習,訓練機制必須提高連續空間中的樣本效率和可靠性,ARL通過將現有的策略搜索方案推廣到通用工具,取得了重要突破。研究人員爲通用程序開發了新的策略搜索方案,並且還確定了其樣本複雜度。由此產生的策略搜索方案減少了獎勵積累的波動性,形成了對未知領域的有效探索和先驗的機制。值得注意的是,地面機器人獲取數據的成本很高。減少獎勵積累的波動性,確保以有效的方式探索未知領域,或者吸收以前的經驗,都將有助於打破強化學習中現行實踐的樣本效率壁壘。通過減少隨機抽樣的數量,可以實現策略優化。

這項研究爲強化學習中的經典策略梯度定理做出了貢獻。裝備有強化學習功能的自主機器人將能夠協助戰士在未來戰場上進行偵察探索和風險評估。研究人員下一步計劃在強化學習中將更廣泛的決策目標納入多主體設置,並研究強化學習主體之間的交互設置如何在團隊之間產生協同和對抗性推理。

來源 | 美國陸軍研究實驗室

圖片 | 互聯網

作者 | 白子龍 北方科技信息研究所

編輯 | 陳培

注:原文來源網絡,文中觀點不代表本公衆號立場,相關建議僅供參考。

更多精彩內容,請回復關鍵詞查看:

綜合分析

戰略與規劃

科技管理

國防創新

軍事理論

人工智能

陸軍

海軍

空軍

航天

網絡空間

電子信息

核武器

高超聲速

無人系統

精確打擊

防空反導

新概念武器

生物與醫學

戰例與演習

先進材料

製造

基礎科學

技術

先進動力

與能源

試驗鑑定

軍事科學院軍事科學信息研究中心微信平臺

覺得不錯,請點在看↓↓↓

相關文章