“決策智能與計算前沿論壇”上,中科院自動化所興軍亮研究員作主旨演講。 中科院自動化所 供圖

中新網北京6月22日電 (記者 孫自法)記者22日從中國科學院自動化研究所(中科院自動化所)獲悉,該所南京人工智能芯片創新研究院近日舉辦“決策智能與計算前沿論壇”,業內衆多專家學者和青年科研人員代表匯聚南京,聚焦新一代人工智能發展,共商決策智能未來發展的關鍵前沿理論和技術難題,促進決策智能研究方向縱深發展,推動決策智能科技與人才交流。

中科院自動化所副所長劉成林研究員指出,該所把自主進化智能作爲重點投入、發展和突破的方向,在中科院人工智能創新研究院平臺上,已有20餘個團隊開展決策智能基礎理論、算法、環境、評價、應用等研究。這次論壇目的之一,就是與國內同行一起加強學術交流,探尋發展方向,尋求合作機會,共同爲國家新一代人工智能發展貢獻力量。

麒麟科創園管委會副主任韋斌表示,麒麟科創園將與中科院自動化所一起,面向國家在決策智能方向的戰略部署和社會民生的實際需求,針對經濟、民生以及重大核心產業複雜決策問題,共建具備“可評估、可推演、可解釋”優勢的新型AI(人工智能)重大科技基礎設施。

江蘇省人工智能學會祕書長房偉認爲,本次論壇對促進決策智能科技與人才的交流、推動決策智能研究方向的縱深發展,必將產生深遠影響。

在論壇主旨演講環節,中國科學技術大學李厚強教授、南京大學俞揚教授、西安交通大學柯良軍教授、華爲諾亞方舟實驗室郝建業博士、中科院自動化所興軍亮研究員等,圍繞機器博弈、智能博弈、多智能體博弈、強化學習如何走出遊戲等主題,分別作精彩分享。

李厚強介紹機器博弈的重要學術價值和廣泛應用價值,引出機器博弈的概念及問題建模方法,並圍繞機器博弈的三個研究方向博弈論、強化學習和多智能體進行理論和應用的分析,分享其課題組在機器博弈三個方向上分別取得的成果,認爲未來機器博弈會向強化均衡、終身學習、可解釋性等方向發展。

俞揚稱,強化學習走出遊戲的難點在於真實世界的場景有限,試錯成本高,樣本效率低等,提到基於環境模型的強化學習被認爲是有望解救強化學習樣本效率低下的主要途徑。他指出,一旦有了良好環境模型,強化學習的大量試錯可在環境模型中完成,從而極大的減少在真實環境的試錯採樣的數量,使得強化學習更具可用性。

柯良軍從數學模型角度分別對單智能體與環境博弈問題和大、小規模疆土守衛問題進行詳細講解,指出梯度優化方法雖然可以無需訓練模型即可得到納什均衡解,但需要已知回報和智能體的動力學微分方程。此外,深度強化學習也會面臨多個智能體目標衝突等問題,採用全局深度強化學習,局部博弈論是未來發展趨勢。

興軍亮圍繞多智能體學習的難點,針對如何從低質量的數據中學習出高水平的決策模型的問題,重點分析三種學習算法:兩階段學習算法(模仿學習+不後悔策略)、三段式學習算法(模仿學習+最優反應+迭代)和基於序列化信用分配的學習算法,並介紹這三種學習方法在星際爭霸和兵棋領域的應用效果。

郝建業首先介紹深度強化學習背景與基礎,然後從如何學得好、學得快、學得穩三方面介紹深度強化學習所面臨的挑戰及相應的解決方案,以及深度強化學習在自動駕駛控制、5G網絡優化、供應鏈物流優化等場景的應用。

據瞭解,中科院自動化所南京人工智能芯片創新研究院針對國家下一代人工智能領域關鍵技術問題,將聚集決策智能核心人才、形成決策智能核心創新、突破決策智能核心技術,併產出面向關鍵民生行業的決策智能新型應用。(完)

來源:中國新聞網

來源:中國新聞網

相關文章