CoRL 2020 獎項公佈，斯坦福獲最佳論文獎，華爲等摘得最佳系統論文獎

機器之心報道

CoRL2020於11月16-18日線上舉行，並頒發了多個獎項。來自斯坦福大學和弗吉尼亞理工的研究者摘得本屆CoRL會議的最佳論文獎，華爲諾亞方舟實驗室和上海交大等機構學者榮獲最佳系統論文獎，南加州大學研究獲得最佳Presentation獎。

昨日，第四屆機器人學習大會（CoRL）公佈了最佳論文獎、最佳系統論文獎等獎項。來自斯坦福大學和弗吉尼亞理工學院的研究《LearningLatentRepresentationstoInfluenceMulti-AgentInteraction》獲得CoRL2020最佳論文獎，最佳系統論文則由華爲諾亞方舟實驗室、上海交大和倫敦大學學院合作的《SMARTS:ScalableMulti-AgentReinforcementLearningTrainingSchoolforAutonomousDriving》摘得，南加州大學論文《AcceleratingReinforcementLearningwithLearnedSkillPriors》獲得了最佳Presentation獎。

自2017年首次舉辦以來，CoRL迅速成爲機器人學與機器學習交叉領域的全球頂級學術會議之一。CoRL是面向機器人學習研究的single-track會議，涵蓋機器人學、機器學習和控制等多個主題，包括理論與應用。

CoRL2020共收到論文475篇，相比2019年增長了20%；接收論文165篇，接收率爲34.7%，高於去年的27.6%。

會議還公佈了包含主要關鍵詞（如leggedrobots、perception等）的論文接收率，參見下圖：

最佳論文獎

CoRL2020頒發了最佳論文獎，來自斯坦福大學和弗吉尼亞理工大學的研究者合作的論文獲得該獎項。大會認爲這篇論文是「爲包括物理機器人環境在內的多個領域中的難題提供了令人信服的解決方案」。

論文：LearningLatentRepresentationstoInfluenceMulti-AgentInteraction

論文鏈接：https://arxiv.org/pdf/2011.06619.pdf

摘要：與機器人進行無縫交互非常困難，因爲智能體是不穩定的。它們會根據ego智能體的行爲更新策略，ego智能體必須預見到可能的變化才能做到共同適應（co-adapt）。受人類行爲的啓發，研究者認識到機器人不需要明確地建模其他智能體將執行的每一個低級操作。相反，它可以通過高級表示來捕獲其他智能體的潛在策略。

該研究提出一個基於強化學習的框架，用來學習智能體策略的潛在表示，其中ego智能體確定其行爲與另一智能體未來策略之間的關係。然後ego智能體利用這些潛在動態來影響其他智能體，有目的地指導制定適合共同適應的策略。在多個模擬域和現實世界曲棍球遊戲中，該方法優於其他方法，並學會影響其他智能體。

最佳論文入圍名單

此次會議共有四篇論文入圍最佳論文獎項，除了最終得獎的論文以外，其他三篇分別是：

論文：GuaranteeingSafetyofLearnedPerceptionModulesviaMeasurement-RobustControlBarrierFunctions

鏈接：https://arxiv.org/pdf/2010.16001.pdf

論文：LearningfromSuboptimalDemonstrationviaSelf-SupervisedRewardRegression

鏈接：https://arxiv.org/pdf/2010.11723.pdf

論文：SafeOptimalControlUsingStochasticBarrierFunctionsandDeepForward-BackwardSDEs

鏈接：https://arxiv.org/pdf/2009.01196.pdf

最佳系統論文獎

本屆CoRL大會的最佳系統論文獎授予了華爲諾亞方舟實驗室、上海交大和倫敦大學學院研究者聯合發佈的論文《SMARTS:ScalableMulti-AgentReinforcementLearningTrainingSchoolforAutonomousDriving》。在頒獎詞中，CoRL稱「該系統完備、考慮周密，爲自動駕駛社區帶來了強大的潛在影響」。

鏈接：https://arxiv.org/pdf/2010.09776.pdf

項目地址：https://github.com/huawei-noah/SMARTS.

摘要：多智能體交互是現實世界自動駕駛領域的基礎組成部分。經歷十幾年的研究和發展，如何與多樣化場景中各類道路使用者進行高效交互的問題依然未能很好地解決。學習方法可以爲解決該問題提供很大幫助，但這些方法需要能夠產生多樣化和高效駕駛交互的真實多智能體模擬器。

所以，爲了滿足這種需求，來自華爲諾亞方舟實驗室、上海交大和倫敦大學學院的研究者開發了一個名爲SMARTS（ScalableMulti-AgentRLTrainingSchool）的專用模擬平臺，該平臺支持多樣化道路使用者行爲模型的訓練、積累和使用。這些反過來又可以用於創建日益真實和多樣化的交互，從而能夠對多智能體交互進行更深更廣泛的研究。

SMARTS架構示意圖。

此外，研究者描述了SMARTS的設計目標，解釋了它的基本架構以及關鍵特徵，並通過交互場景中具體的多智能體實驗闡釋了其使用流程。研究者還開源了SMARTS平臺以及相關的基準任務和評估指標，以鼓勵和推進自動駕駛領域多智能體學習的更多研究。

最佳系統論文獎入圍論文

本屆CoRL大會入圍最佳系統論文獎的一篇論文是加州大學伯克利分校學者的《DIRL:Domain-InvariantRepresentationLearningforSim-to-RealTransfer》。

鏈接：http://www.ajaytanwani.com/docs/Tanwani_DIRL_CORL_CR_2020.pdf

最佳Presentation獎

會議還公佈了最佳Presentation獎項，從所有oralpresentation論文中選出了三篇入圍論文，最終來自南加州大學的研究獲得了該獎項。

論文：AcceleratingReinforcementLearningwithLearnedSkillPriors

鏈接：https://arxiv.org/pdf/2010.11944.pdf

智能體在學習新任務時嚴重依賴之前的經驗，大部分現代強化學習方法從頭開始學習每項任務。利用先驗知識的一種方法是將在之前任務中學到的技能遷移到新任務中。但是，隨着之前經驗的增加，需要遷移的技能也有所增多，這就對在下游學習任務中探索全部可用技能增加了挑戰性。還好，直觀來看，並非所有技能都需要用相等的概率進行探索，例如當前狀態可以提示需要探索的技能。

南加州大學的這項研究提出了一個深度潛變量模型，可以聯合學習技能的嵌入空間和來自離線智能體經驗的技能先驗。研究者將常見的最大熵強化學習方法進行擴展，以使用技能先驗引導下游學習。

該研究在複雜的導航和機器人操作任務中對提出的方法SPiRL(Skill-PriorRL)進行驗證，結果表明學得的技能先驗對於從豐富數據集上進行高效技能遷移是必要的。

研究人員放出了其官方PyTorch實現，代碼地址：https://github.com/clvrai/spirl。

項目主頁：https://clvrai.github.io/spirl/

最佳Presentation獎入圍論文

除最終獲獎的南加州大學論文以外，另外兩篇入圍論文分別來自UberATG團隊、多倫多大學與谷歌。

論文：UniversalEmbeddingsforSpatio-TemporalTaggingofSelf-DrivingLogs

鏈接：https://arxiv.org/pdf/2011.06165.pdf

論文：TransporterNetworks:RearrangingtheVisualWorldforRoboticManipulation

鏈接：https://arxiv.org/pdf/2010.14406.pdf

CoRL2020論文展示視頻和直播參見：https://www.youtube.com/c/conferenceonrobotlearning

參考鏈接：https://syncedreview.com/2020/11/17/conference-on-robot-learning-corl-2020-underway-best-paper-finalists-announced/

AmazonSageMaker1000元大禮包

ML訓練成本降90%，被全球上萬家公司使用，AmazonSageMaker是全託管機器學習平臺，支持絕大多數機器學習框架與算法，並且用IDE寫代碼、可視化、Debug一氣呵成。

現在，我們準備了1000元的免費額度，開發者可以親自上手體驗，讓開發高質量模型變得更加輕鬆。

點擊閱讀原文，填寫表單後我們將與你聯繫，爲你完成禮包充值。

THEEND

轉載請聯繫本公衆號獲得授權

投稿或尋求報道：[email protected]

CoRL 2020 獎項公佈，斯坦福獲最佳論文獎，華爲等摘得最佳系統論文獎

熱門新聞

週熱門

CoRL 2020 獎項公佈，斯坦福獲最佳論文獎，華爲等摘得最佳系統論文獎

博弈加速，58同城、同道獵聘、牛客搶灘AI面試

用數字化系統來驅動管理是本末倒置嗎？

歐洲版OpenAI又要融資，估值50億美元，Llama 2“套殼”也能半年估值翻番？

產品賣爆的背後，情緒價值正在成爲主要推力

Sam Altman最新採訪：模型性能不是長期差異化的關鍵

氪星晚報｜馬斯克：特斯拉正精簡銷售和交付體系；Take-Two宣佈裁員約5%；中國首個音樂SOTA模型“天工音樂大模型”開啓公測

AI數據荒下的創業衆生相：盜用GPT-4生成數據訓練模型，引發投資人擔憂

啓動組織轉型？大廠套路這幾種

又一家Biotech公司不行了

繼特斯拉後，又一巨頭充電業務大幅裁員，電動汽車行業步入寒冬？

初創企業找人才，別過於強調遠大願景？

醫院是應用大模型最好的場景，但不是商業化的最好場景

專注研發車載以太網芯片，奕泰微電子完成Pre-A+輪融資｜36氪首發

身價大縮水1385億，劉強東坐不住了

馬雲說的“大公司病”究竟是什麼病？

熱門新聞

週熱門