蓋世汽車訊 據外媒報道,加州大學伯克利分校的AI研究人員表示,他們開發了一種AI技術,可幫助自動駕駛汽車在陌生的現實世界中行駛,並且其性能優於送貨機器採用的導航方法。該導航系統名爲LaND(Learning to Navigate from Disengagements),學習脫離(Disengagement)事件的導航系統,然後預測何時會發生系統脫離情形。

(圖片來源:https://venturebeat.com)

脫離是指自動系統遇到具有挑戰性的條件,必須將控制權交還給人工操作員的情形。在衡量自動駕駛汽車系統的能力方面,脫離事件是一個備受爭議的指標,有人稱其已經過時。AI研究人員通常將脫離視爲故障排除或導航系統調試的信號,但LaND卻將其作爲訓練數據的一部分。

工程師們表示,通過此種方式,可以讓機器人從測試過程中收集的數據集中學習。雖然其他系統直接從機載傳感器收集的訓練數據中學習,但研究人員表示,這可能需要大量的標註數據,而且成本更高。

研究人員表示,“研究結果表明,LaND可以成功地在各種真實的人行道環境中學習導航,其表現優於模仿學習和強化學習方法。如果機器人能夠成功地學習執行動作,避免出現脫離情形,將能成功地完成預期任務。重要的是,傳統的強化學習算法使用特定任務獎勵功能,與傳統的強化學習算法不同,我們的方法根據脫離信號,推斷任務,甚至不需要知道任務是什麼。然而,與標準的強化學習算法類似,我們的方法也在不斷改進,會強化避免解除的行爲。”LaND利用強化學習,而非尋求獎勵,將系統脫離事件作爲直接從輸入傳感器學習的方式,同時考慮方向盤角度,以及是否啓用自動模式等因素。

該團隊通過在人行道上駕駛機器人,收集訓練數據,來打造LaND。當機器人駛入街道、車道或其他佈滿障礙物的環境時,由人類安全駕駛員陪同機器人重新設定路線,或在短時間內接管駕駛。在這一訓練期間,研究人員共收集了近35000個數據點,生成了近2000個系統脫離場景。

初步實驗表明,與深度強化學習算法和模仿學習的常用方法之一行爲克隆相比,系統脫離之前,LaND在人行道上行駛的距離更長。研究人員稱,未來,LaND可與現有導航系統,尤其是導航模仿學習方法相結合。研究如何讓機器人在需要人工干預時,提醒操作人員,可以降低成本。

相關文章