2023年8月5日,中國自動化學會共融機器人專委會在西安交通大學創新港校區舉辦了第一期多智能體強化學習講習班。
本次講習班由西安交通大學蘭旭光教授、諾亞方舟實驗室科學家郝建業副教授擔任學術主任,由南京大學人工智能學院的俞揚教授、中山大學計算機學院的余超教授、清華大學交叉信息院助理教授許華哲、北京大學人工智能研究院助理教授楊耀東、上海人工智能實驗室青年研究員白辰甲以及上海交通大學約翰·霍普克羅夫特計算機科學中心助理教授溫穎等國內一線新銳人工智能專家擔任講習教授。講習班共收到來自全國各地的近140名學員報名,學員來自高校、企業等相關機構。講習班由郝建業副教授、趙飛研究員主持。
蘭旭光教授作開班致辭并點明本次講習班主題——“將人工智能帶入物理世界”。講習班教授與學員針對多智能體人工智能強化學習開展了詳盡熱烈的討論。
俞揚教授針對智能出行、物流派單等強化學習應用落地過程中存在的數據收集昂貴等問題,以人類及小鼠的海馬體細胞的信息編碼、集成、解碼及記憶功能為例,講述了環境仿真器與世界模型的起源與發展、應用案例以及當前面臨的挑戰。俞揚教授對序貫決策問題進行了詳盡的剖析,闡述了模仿學習、行為克隆、基于模型的強化學習框架下各種算法的理論及對應的特點,并從模型動力學、神經網絡所造成的復合誤差、數據漂移以及策略泛化的角度,說明了世界模型學習在強化學習、數據增強及多智能體系統中存在的問題,探討了策略自我進化、情景學習、離線學習等可能的解決方案,并分享了課題組的相關成果。
余超教授從安保系統、拍賣任務、德州撲克等非完全信息博弈的典型應用入手,講述了博弈論機人工智能的發展歷程,對當代智能博弈對抗提出了深刻的見解。余超教授介紹了自博弈、神經虛擬自博弈、反事實遺憾最小化及策略空間最佳響應等經典方法,分析了其表征與優化困難、非平穩目標、效率低下以及環形策略等問題,結合廣義赫爾姆霍茲分解原理,從知識蒸餾、信念虛擬博弈、策略種群多樣性的角度給出了多種潛在的增強方法,并對非零和博弈任務、表征及策略泛化、人機增強決策等應用進行了進一步展望。
許華哲老師講述了決策智能、感知智能、機器人學的基本概念,對具身智能中的視覺外觀、幾何位姿、組合能力及多智能體協作泛化等問題進行了深刻地分析。許華哲老師提出,具身控制應從計算機視覺的成功中進行學習,在任務多樣性、現實場景、高維及連續控制及過擬合方面實現標準化,進而提升學習算法在具有低質量點云及任意位姿的真實場景中的泛化能力。許華哲老師分享了課題組在相關性表征泛化、預訓練視覺模型、分布式觸覺機械臂以及離線多智能體強化學習及并行編碼控制方面的成果,通過生動直觀的案例展示了具身智能泛化能力后續可延伸的問題。
楊耀東老師從靈巧雙手操縱、無人機群編隊、星際爭霸游戲等多智能體博弈合作的應用出發,講解了合作式多智能體強化學習任務中值分解算法及個體-全局最優一致性等相關概念,對基于策略梯度的多智能體優化算法中存在的方差大問題進行了剖析。楊耀東老師從多智能體信賴域優化方法入手,分析了能夠保障合作策略單調遞增的優勢函數分解定理,并對當前業界性能最優的多智能體Transformer算法及安全約束進行了講解。進一步,楊耀東老師介紹了基于多智能體鏡像學習合作博弈求解框架和最大熵優勢函數分解定理,并對具有多種學習算法及測試環境的多智能體強化學習訓練平臺MARLlib進行了分享。
白辰甲老師從離線強化學習中存在的采樣策略和學習策略不匹配、值函數迭代產生的分布漂移等問題出發,分析了策略約束、保守值函數等現有方法的特點及存在的問題,并給出了廣義值函數的不確定性懲罰、魯棒的離線策略學習以及貝葉斯的不確定性估計等解決方案。白辰甲老師介紹了廣義模仿學習的概念,說明模仿學習不需要通過自舉方式求解學習目標,從而避免分布漂移帶來的誤差,并著重強調了如何從非最優軌跡中學習最優策略是廣義模仿的核心問題。進一步,白辰甲老師對大模型與廣義模仿學習的關系進行了總結,介紹了Decision Transformer、Trajectory Transformer、Prompt Decision Transformer、MTDiffuser等一系列工作,并對大語言模型指導規劃和技能調用、獎勵生成等應用進行了展望。
溫穎老師以多智能體強化學習中的零樣本協作問題為出發點,指出現有基于種群的學習方法雖然試圖通過在智能體種群中優化固定目標以提升策略或行為的多樣性,但在開放環境下仍存在合作不兼容的問題。溫穎老師從博弈論和圖論的角度對合作不兼容問題產生的原因進行了分析,介紹了集中偏好的量化評估方法與基于圖結構的合作博弈開放式框架,并展示了該方法在多智能體及人機合作任務中可以解決零樣本協作中的合作不兼容問題。進一步,溫穎老師展望了大語言模型和生成式智能體在開放世界中的應用前景,并分析了其中存在的人類行為理解、多智能體分布式決策等問題。
本次講習班的舉辦,對促進人工智能前沿發展方向的研究與推廣起到了促進作用,對提升相關學科學者對人工智能研究的興趣起到了推動作用。整個講習過程中,學術氛圍濃厚,參加研討班的講習班學員提出了多智能體強化學習、智能博弈、大模型及具身智能等相關問題。各位專家教授根據學員們的提問,由淺入深地進行了多維度的專業解答。
中國自動化學會共融機器人專委會將根據學科發展進展,不定期組織人工智能講習班,歡迎相關從業人員關注參加。