來源:量子位

這是首個基於Transformer的駕駛行爲描述框架,可以感知和預測駕駛行爲。也就是說,輸入車輛視頻後,這個算法可以判斷車輛行爲並告訴你:車在做什麼,爲什麼要這麼做。

還在玩ChatGPT?已經有自動駕駛算法能告訴你“我在幹嘛”。

基於視覺和神經網絡的自動駕駛算法,雖然能通過傳感器數據,以及學習人類的駕駛行爲,自主決策並控制車輛。

但是,算法基於什麼做出的決策?特別是出現故障,也就是決策錯誤的時候,算法是怎麼想的?這些一直被稱爲自動駕駛算法裏的“黑匣子”,讓算法缺乏透明度可解釋性

不過,現在有這麼一個模型,既能預測車輛控制行爲,還能自己解釋“我停車是因爲紅燈亮了,並且有行人在過馬路”。

模型論文入選ICRA 2023,相關模型已開源。

那麼,是一個什麼樣的算法?

ADAPT:駕駛行爲感知說明大模型

這是一種叫ADAPT(Action-aware Driving Caption Transformer)的端到端算法,也是目前第一個基於Transformer的駕駛行爲描述框架,可以感知和預測駕駛行爲,並且輸出自然語言敘述和推理。

直白一點說,輸入車輛視頻後,這個算法可以判斷車輛行爲並告訴你:車在做什麼,爲什麼要這麼做。

在論文作者提供的測試視頻裏,這個算法最終上車的效果是這樣的。(紅色字是車輛行爲,藍色字是解釋)

“車在向前開。因爲路上沒有車。”

駕駛行爲變化後,算法也能及時感知:

“車靠左邊停下了。因爲要停車。”

“車開始移動並且靠右行駛。因爲路左邊停着車。”

算法不僅能識別路口,也能識別騎着車的人。

“車在十字路口停下了。因爲要避開街上騎着自行車的人,”

這是怎麼實現的?

多任務框架下的聯合訓練

ADAPT框架可以分爲兩個部分:車輛行爲描述(DCG,Driving Caption Generation)和車輛控制信號預測(CSP,Control Signal Prediction)。

首先,傳感器端輸入視頻,Video Swin Transformer對車輛視頻進行編碼,得到的視頻特徵會輸入進各任務模塊裏。

在DCG模塊,算法利用Vision-Language Transformer生成兩個自然語句,也就是上文中提到的車輛行爲描述原因解釋

相同的視頻特徵也會輸入進CSP模塊(類似一般基於視覺的自動駕駛系統),輸出車輛實際的控制信號序列,並利用Motion Transformer輸出模型預測的控制信號,比如速度、方向和加速度。

在單個網絡中,作者利用車輛實際的控制信號序列和模型預測的控制信號序列,兩者的均方誤差作爲CSP模塊的損失函數。

而在多任務框架下,通過聯合訓練DCG和CSP,可以減少車輛決策和文本描述之間的差異,提高控制信號預測的準確率。

論文裏,作者們在包含控制信號和車輛視頻的大規模數據集BDD-X上,利用機器評測和人工評測驗證了ADAPT的有效性。

機器評測方面,使用的是BLEU4、METEOR、ROUGE-L和CIDEr(對應縮寫分別爲B4、M、R、C)等多種語言任務常用的指標。

最終顯示ADAPT達到了當前最優(State-of-the-Art)的結果,ADAPT在動作描述方面比原有先進方法CIDEr高出31.7,在原因解釋方面高33.1。

人工評測分爲動作描述、原因解釋和全句三個部分。通過人工判斷,ADAPT在這三部分的準確性分別達到了90%,90.3%和82.7%,證明了ADAPT的有效性。

在可視化結果裏,也能看出ADAPT可以準確識別車輛行爲以及決策原因。並且在黑夜、陰雨天等場景下,ADAPT也能保證準確度;即使有雨刷器干擾,ADAPT也可以識別道路上的停止標識。

爲什麼需要ADAPT?

自動駕駛行爲的可解釋性

在基於視覺的自動駕駛算法裏,比較常見的解釋圖有視覺注意圖(Attention Map),或者成本量圖(Cost Volume),但不熟悉自動駕駛算法的人容易對這些圖造成誤解。

因此,ADAPT這種能夠生成自然語言、“說人話”的算法,能夠幫助用戶更好地理解自動駕駛算法在做什麼、爲什麼要這麼做,同時還能讓用戶更信任自動駕駛技術。

而對於算法工程師和研究人員來說,當發生極端情況時、或者發生故障(比如判斷錯誤)時,ADAPT可以幫助他們獲得更多信息,進而改進算法。

作者們將進一步研究如何在模擬器和實際車輛上如何部署ADAPT,以及如何利用文本轉語音技術,讓生成的句子轉化爲語音,幫助普通乘客,特別是視力障礙乘客使用。

相關文章