近年來,人工智能理論、方法和技術快速發展,尤其是深度學習技術帶動了智能任務的性能快速提升和在社會多個領域的成功應用。由于實際應用場景數據動態變化、多模態協同的特點,多模態人工智能成為人工智能理論方法發展的重要方向。多模態人工智能面向復雜動態多模態場景的數據理解、學習和推理,涉及自然語言處理、計算機視覺、模式識別、語音識別和多模態融合等領域。最近,人工智能大模型的發展和應用再人工智能領域產生了巨大的影響,也將在多模態人工智能中發揮關鍵作用。
為了給本領域研究者、技術開發人員和研究生介紹多模態人工智能前沿理論方法和最新進展,中國自動化學會模式識別與機器智能專業委員會主辦這次前沿技術講習班。講習班于2023年9月22日-24日在昆明舉辦,由中國科學院自動化研究所劉成林研究員、華南理工大學金連文教授、云南大學信息學院張學杰教授和陶大鵬教授擔任學術主任,邀請了多名人工智能領域的知名專家作報告,使學員在了解學科熱點和基礎理論方法、提高學術水平的同時,增進與多模態人工智能領域頂尖學者之間的學術交流。
主辦單位:中國自動化學會模式識別與機器智能專委會
承辦單位:云南大學信息學院
協辦單位:云南云上云大數據產業發展有限公司
時間:2023年9月22號-24號
地點:云南省昆明市呈貢區南亞豪生酒店·南亞廳
注冊費包括講課資料和3天會議期間午餐。
注冊鏈接:
https://www.cacpaper.com/register/76/user/preRegist
注冊二維碼:
簡介:
簡介:
金連文,華南理工大學二級教授,兼任廣東省圖像圖形學學會理事長、中國圖像圖形學學會(CSIG)常務理事、CSIG文檔圖像分析與識別專委會主任、中國自動化學會模式識別與機器智能專委會常委委員等職。主要研究領域為人工智能、計算機視覺、文字識別、文檔圖像理解等,在重要學術期刊及國際會議上發表學術論文300余篇,其中SCI Q1區+CCF A類論文100余篇,Google Scholar論文被引用數12000余次,H-Index 58,獲得授權發明專利70余項目。獲省部級科技獎5項(其中一等獎2項,二等獎3項);指導學生參加權威國際國內學術競賽榮獲冠軍20余次。
簡介:
報告題目:
語言基礎模型的重要特性
報告摘要:
近年來以BERT、GPT為代表的預訓練語言基礎模型,使人工智能技術進入“預訓練-微調”的全新范式,特別是最近ChatGPT引爆了全社會對基礎模型技術的關注。本報告重點介紹語言基礎模型的基本原理,在智能能力方面體現的強大通用特性,在模型框架、微調適配、推理計算等方面體現的模塊化計算特性,以及在多模態、工具學習、群體智能、安全性等方面體現的全新智能特性,并探討大模型未來的研發應用范式。報告人簡介:
報告題目:
視覺大模型:自監督預訓練以及在文心·CV大模型中的實踐
報告摘要:
本報告首先回顧計算機視覺領域里的自監督預訓練算法最近幾年的進展,包括對比學習和圖像掩碼建模等。其次,介紹文心·CV大模型中的自監督表征學習算法Context Autoencoder(CAE)和基于預訓練的目標檢測算法Group DETR等,同時,從學習物體部件的角度,給出幾個典型的自監督預訓練算法(BEiT、MAE、CAE、MoCo v3及DINO)的特點(TMLR)。再次,講述基于CAE和Group DETR的工業視覺大模型、OCR文字識別大模型(MaskOCR)、人體大模型等。最后,分享圖文對比預訓練大模型在自動駕駛數據挖掘中的應用和基于多任務學習的交通感知大模型。
報告人簡介:
報告題目:
多模態預訓練的研究進展回顧與展望
報告摘要:
近年來,從預訓練模型到預訓練大模型,從文本、音頻、視覺等單模態大模型,到現在的圖文、圖文音等多模態預訓練大模型,無論在學術界還是企業界預訓練模型都得到了廣泛關注與爆發式發展。多模態預訓練通過聯合圖文音等多模態內容進行模型學習,其發展在多模態理解、搜索、推薦、問答,語音識別與合成,人機交互等應用領域中具有潛力巨大的市場價值。本報告主要包含三方面內容:分析多模態預訓練模型的重要性與必要性;回顧當前多模態預訓練的最新研究進展;多模態預訓練模型主要應用場景與未來展望。
報告人簡介:
劉靜,中科院自動化所研究員/博導,中國科學院大學崗位教授。研究方向多模態分析與理解,紫東太初大模型。曾獲中國電子學會自然科學一等獎,圖像圖形學會科學技術二等獎,2022年世界人工智能大會“卓越人工智能引領者獎SAIL”。承擔或參與多項國家自然科學基金項目、國家973課題、國家基金重大研究計劃、國家重點研發等。已發表高水平學術論文150余篇,谷歌學術引用12000+次,SCI他引次數5000+次,其中有三篇被ESI列為Top1%高被引論文。在視覺計算相關領域的多項國際學術競賽中榮獲冠軍10+項。
報告題目:
從ChatGPT到國產多模態基礎大模型
報告摘要:
隨著深度學習技術的快速發展,ChatGPT作為自然語言處理領域的重要突破,引起了廣泛關注。本次探討ChatGPT在自然語言處理領域中的重要性以及其所具有的優秀特性,繼而引出國產多模態基礎大模型的研發意義,以及如何通過結合多模態數據和深度學習技術來實現新型國產化基礎模型的構建。具體來說,將討論多模態數據的處理方法、模型構建的關鍵技術以及如何實現緊致化部署等相關技術點。本講座的研究成果將為解決多模態大模型的部署難題和提高模型性能和效率提供借鑒和參考。
報告人簡介:
報告題目:
擴散模型與視覺內容生產
報告摘要:
擴散模型與AIGC 摘要:擴散概率模型逐步地對先驗分布去噪恢復數據分布。目前,這類模型在數據合成質量、采樣的多樣性和數據密度估計等指標下取得了超越 VAE、GAN、FLOW 等經典深度生成模型的結果,也部署于諸多的圖像、跨模態大規模生成模型。本次報告會介紹擴散概率模型的基本原理、加速推斷算法、大規模訓練和可控生成等AIGC應用的前沿進展。報告人簡介:
報告題目:
高性能視覺目標檢測分割和跟蹤
報告摘要:
視覺目標檢測分割和跟蹤技術是計算機視覺中的基礎任務,具有重要的應用價值。本次報告將圍繞視覺目標檢測分割和跟蹤技術,梳理近年來的技術發展路徑,并從預訓練大模型、開放場景感知、模型輕量化部署等方向做前沿技術介紹。
報告人簡介:
報告題目:
視覺場景理解與推理問答
報告摘要:
近年來,以Transformer為核心的神經網絡架構快速發展,網絡規模日益龐大,并以此為基礎推動了無監督/自監督學習技術的跳躍式發展,逐步形成一套被稱為大模型或者基礎模型的技術范式。本報告將梳理這套基礎模型技術在視覺場景和推理問答中的應用。
報告人簡介:
林倞,中山大學計算機學院教授/博導,國際模式識別學會會士(IAPR Fellow),英國工程技術學會會士(IET Fellow)。長期從事計算機視覺、機器學習及智能機器人領域的應用基礎研究,承擔國家2030科技創新重大項目。在國際頂級學術期刊和會議發表論文300余篇,論文被引用累計3萬次;獲權威期刊Pattern Recognition年度最佳論文獎,多媒體計算旗艦會議ICME最佳論文鉆石獎,計算機視覺旗艦會議ICCV最佳論文獎提名;獲中國圖像圖形學會科學技術一等獎、吳文俊人工智能自然科學獎,省級自然科學一等獎。中國科學院自動化研究所研究員
報告題目:
魯棒自適應模式識別
報告摘要:
模式識別是人工智能領域的核心研究方向。傳統的模式識別和機器學習假設閉合類別集、獨立同分布、大數據訓練。然而在開放環境下,包括深度學習在內的已有方法面臨一系列新的技術挑戰。尤其是,識別對象從閉合世界擴展到了開放世界,對新類別模式、異常和噪聲模式的建模與處理成為困難,由此產生了開放集識別、置信度估計、持續學習等大量研究工作。本報告對開放環境模式識別的研究問題進行分析,并專門針對開放魯棒性和類別增量學習進行深入討論。主要內容包括:開放環境魯棒模式識別的研究問題,開放集識別的模型和算法,深度模型置信度校準,類別增量學習,開放環境模式識別的未來發展趨勢。
報告人簡介:
聯系人:李老師
聯系電話:18403433440
電子郵箱: 20224053@ynu.edu.cn