導讀:自動駕駛技術的起源可以追溯到DARPA的Grand Challenge和Urban Challenge。2004年和2005年的Grand Challenge主要面向越野環境,而2007年的Urban Challenge則面向城市環境。此時自動駕駛技術的開始發展起步,并取得了一些顯著成果,例如2010年帕爾瑪大學的自動駕駛車隊在三個月內完成了從意大利帕爾瑪到中國上海的13000公里行程。這一階段的自動駕駛稱為1.0階段,它高度依賴于硬件設備,采用傳統的計算機視覺方法進行自動駕駛,主要是通過高精度地圖進行循線行駛。此階段使用的設備通常體積龐大且價格昂貴,例如,高精度慣性衛星組合導航系統的價格約為60萬元,可以實現厘米級的定位精度。
一、為什么一體化的端到端視覺語言動作大模型如此重要?
在感知部分,傳統計算機視覺方法被廣泛應用于環境感知和障礙物識別,主要依靠特征工程。在決策與規劃部分,主要包括簡單的決策和路徑規劃,特別強調車輛的縱向速度控制和橫向偏差控制。這一階段的自動駕駛系統依賴于人為設定的決策邏輯和基于規則的算法,因此被稱為自動駕駛1.0階段,如圖1所示。
圖1 自動駕駛1.0
自2016年起,隨著大量產業資本的介入,中國的初創企業、頭部企業、互聯網企業、ICT企業、主機廠和造車新勢力紛紛聚焦于自動輔助駕駛技術的發展。當前,國際汽車工程師學會(SAE)定義的自動駕駛分級標準被廣泛采用,該標準將自動駕駛劃分為L0到L5級別,進一步細分了自動駕駛技術的不同發展階段。
2021年,SAE和ISO進一步發布了新版的自動駕駛分級標準,如圖2所示,其強調了自動駕駛技術在不同功能、區域和環境條件下的應用。這些標準幫助明確了各類自動駕駛系統的實際能力,盡管一些企業可能出于宣傳目的將輔助駕駛系統稱為自動駕駛系統。L0到L2級別被稱為輔助駕駛,而只有L3到L5級別才被定義為自動駕駛。因此,當我們談論自動駕駛時,指的是L3及以上級別,L2及以下都屬于輔助駕駛。
圖2 新版自動駕駛分級標準 SAE J3016
目前在中國廣泛商業化應用的是NOA(Navigation Output Autopilot),被稱為L2++的自動輔助駕駛系統。NOA系統實現了低接管率,使得駕駛員從駕駛員變成了安全員,不再需要頻繁操作。這標志著商業化落地進程的開始。如今,包括比亞迪、蔚來、小鵬、理想、華為、極越、小米和大疆等在內的企業都已涉足L2++智能電動汽車領域,NOA成為新能源汽車的標準配置。
NOA系統從高速公路逐漸發展到城市道路,并正在研發綜合性的NOA系統,融合高速和城市道路的導航功能。這一過程中,關鍵技術的突破和普遍應用至關重要,包括鳥瞰圖、Transformer模型的廣泛使用、占用網絡的預測以及車道級地圖的應用。這些技術的發展標志著自動駕駛從1.0階段邁入2.0階段。
在自動駕駛2.0階段,基于深度學習的技術被廣泛應用,其特點是分段完成自動駕駛解決方案。系統被劃分為感知、預測、決策與控制等模塊,如圖3所示。感知部分包括環境感知和自主導航,不再依賴昂貴的高精度導航設備,而是采用視覺、激光雷達和SLAM技術,從而降低成本并提高環境適應性。感知部分也從高精度地圖轉向車道級地圖。
圖3 自動駕駛2.0
盡管預測、決策與控制部分的技術變化不大,依然是基于人為設定的條件進行,但這一分段方法也帶來了顯著的可解釋性。然而,這種人為設定的先驗條件也引入了局限性,特別是在面對邊緣事件和小概率事件時,系統難以應對。這種方案需要窮舉各種可能性,導致代碼復雜性增加,并且無法全面覆蓋所有情況。因此,自動駕駛2.0階段的方案面臨長遠發展問題和邊緣案例的挑戰。
自動駕駛3.0階段采用端到端的視覺語言建模方法,通過模擬真實事件中物體之間的運動學、動力學及其他物理學規律,在連續的隱含空間中實現統一的表達、理解、記憶、預測、交互與決策。這種方式類似于人類的“快思維”模式,實現了駕駛行為的自主閉環。特斯拉的FSD(Full Self-Driving)系統就是一個典型的例子,它通過徹底的端到端解決方案,大大減少了代碼量,從原來的30萬行減少到僅幾千行,依賴視覺神經網絡進行學習和決策。
這種方法的優勢在于,通過視覺神經網絡的學習,可以顯著提升自動駕駛系統的自主性和環境適應性。例如,DQN(Deep Q-Network)在阿塔瑞游戲中的應用展示了深度強化學習在像素級視覺輸入和動作輸出之間建立聯系的能力。DQN不僅在多個游戲中超越了人類玩家,還創造了許多未曾設想的策略。
自動駕駛3.0采用類似的端到端純視覺方法,輸入端是連續的視頻幀,輸出端是駕駛行為,如圖4所示。通過學習實現從視覺輸入到行為輸出的轉換,無需人為設定條件。這種徹底端到端的自動駕駛解決方案,真正體現了人工智能的潛力,使得L3及以上級別的自動駕駛成為可能。
圖4 自動駕駛3.0
自動駕駛從1.0到3.0的演變不僅提升了技術水平,更帶來了對人類交通和出行方式的顛覆性改變。特別是高速和城市的NoA(Navigation on Autopilot)以及L3、L4級別的自動駕駛汽車的發展,為未來城市的安全性、便捷性和效率提升提供了新的機遇。從1.0的基礎輔助駕駛到3.0的完全端到端解決方案,自動駕駛技術經歷了深刻的變革。自動駕駛3.0階段,通過端到端的視覺語言建模方法,實現了駕駛行為的自主閉環,大大提升了系統的自主性和環境適應性。
人類思維中的快思維,即本能與直覺,在自動駕駛中具有重要意義。快思維的特點是依靠視覺輸入和直覺反應,約占我們日常活動的95%。人類的視覺主要依靠可見光,而自動駕駛系統可以通過傳感器(雷達、激光點云、毫米波雷達)擴展這種感知能力。視覺傳感器輸入一幀幀的圖像,輸出則是軌跡或路徑數據。
在端到端自動駕駛系統中,輸入輸出之間隱含著大量信息,包括長期記憶和推理過程。這些都需要借助語言大模型來實現,因為語言模型中包含了人類的常識和專業知識。自動駕駛系統必須具備這種知識,才能做出正確的決策。
語言不僅限于文本,還包括視覺和語音。這些都可以看作是不同的語言模態,因為它們都能表達明確的語義。交流的核心在于語義傳達,即我們理解彼此的意思。無論是通過文本、圖像還是語音,只要能準確傳達語義,都是有效的交流方式。這種多模態的語言表達在自動駕駛中至關重要。例如,通過視覺傳感器獲取環境信息,通過語音指令進行交互,這些都是自動駕駛系統需要處理和理解的內容。
自動駕駛系統的核心在于理解和處理語義信息。這些語義信息包含物體的屬性及其關系,內涵指的是同一物體的共性部分,而外延則是不同類別物體之間的差異性。視覺傳感器捕捉的圖像能夠傳遞豐富的語義信息,例如辨識行人、車輛、斑馬線、交通信號燈等,并理解它們之間的關系。這種語義理解是進行正確決策和規劃的基礎。
多模態大語言模型的發展可以分為幾個階段,如圖5所示。早期的大語言模型主要是基于文本模態的,例如GPT,這類模型通過token化將文本數據轉換為連續的潛空間,并在此基礎上進行處理和生成。目前的發展重點是多模態大語言模型,不僅包含文本,還擴展到視覺和語音等模態,能夠在同一個潛空間中表達和對齊不同模態的語義信息,實現跨模態的理解和轉換。下一步的發展是具身智能,即賦予AI一個身體,使其能夠在物理世界中進行交互,具備移動和操作能力,從而與周圍環境和其他智能體進行動態交互。
圖5 通用人工智能的迭代演化路徑
具身智能的引入使AI能夠通過實際的物理交互來學習和適應。這樣的智能體不僅能夠進行高級別的語義理解,還能在真實環境中進行操作和決策。例如,AI在駕駛過程中能夠通過視覺和其他傳感器感知環境,并做出相應的駕駛決策。多模態認知不僅限于視覺和語音,還包括觸覺和動作等感知數據,這些數據通過嵌入和投影技術轉化為連續的潛空間,統一進行處理和學習,實現多模態的協同工作。
通用人工智能的未來發展方向在于實現多模態、多任務、多領域的統一智能系統。具身智能的引入將使AI能夠在物理世界中不斷學習和進化,通過與環境和其他智能體的動態交互來獲取知識和技能。這種智能系統不僅能夠在特定任務上超越人類,還能夠在多個領域和任務中展現出強大的適應性和智能水平。例如,在復雜的駕駛環境中,具身智能可以通過不斷的實踐和學習,逐步提高其駕駛技能和決策能力,最終實現安全、高效的自動駕駛。
GPT (Generative Pre-trained Transformer) 是一種生成式語言模型,主要通過自回歸方法進行生成和解碼。生成式模型的重點在于生成的次序,因此解碼過程需要依賴編碼階段。OpenAI 的 GPT 是一個典型的例子,其模型質量較高,部分原因在于其信奉和追求規模規模定律。盡管這一點存在爭議,但許多高質量模型確實體現了這一理念。
單模態文本語言模型,如 GPT-4,展示了顯著的改進和變革。例如,以前的機器學習或人工智能在處理文本時,僅僅能匹配和對齊,但不能真正理解文本內容。而現在的 GPT-4 能夠很好地理解文本,例如復雜的小學數學應用題,能夠分解問題和任務。其關鍵在于利用語言模型和世界知識的學習,將許多 token 之間的關系和屬性進行聚合和連接,從而具備了理解和生成文本的能力。
從單模態文本模型到多模態模型的轉變標志著語言模型的一個重大進步。早期的多模態處理通常將其他模態轉換為文本,然后進行嵌入變換。而現在的多模態模型能夠直接處理輸入的數據,無論是視頻還是語音,通過 token 化來實現。多模態模型通過語義對齊,實現了視聽覺語言思維,擴展了視覺、聽覺和語音的交互能力,模擬了人類智能行為中的視聽覺語言思維。這種能力使模型能夠通過簡單的文本提示生成復雜的視頻內容,補充大量的背景信息和細節,如圖6所示。
圖6 原生多模態 大型語言模型
在自動駕駛領域,原生的多模態視覺和動作模型尤為重要。端到端的視覺語言動作大模型可以通過視覺輸入來生成相應的動作。例如,視覺輸入進來描述環境,輸出的則是車輛的駕駛動作。這種模型強調視覺語言思維,通過看到一個物體馬上產生相應的動作。
多模態模型還需要兼顧通用和專用模型,通用模型提供基本的多模態處理能力,而專用模型則提供特定領域的知識,例如通過知識圖譜構建的專業數據庫。原生的多模態理解能力對于自動駕駛的意義在于能夠結合每幀圖像的文本描述和環境理解來進行決策和控制,實現更好的感知和理解能力。即使在自動駕駛 2.0 階段,通過對環境的深度理解,模型仍然可以做出更好的決策與控制。
多模態理解在自動駕駛領域帶來了根本性的變化,使車輛能夠對環境進行更加全面和深入的感知和理解。這不僅包括對障礙物的識別和理解,還涉及對自身狀態、道路標志和交通信號的認知。通過整合圖像、點云、視頻、語音和文本數據,實現跨模態的語義對齊,各模態可以互相解釋同一事物或事件,增強整體感知與認知能力。
主動感知與規劃在自動駕駛中至關重要。不同于被動感知,主動感知是有選擇性的,根據需要感知特定的環境信息。規劃包括行為規劃和任務規劃,前者涉及車輛的路徑選擇和動作決策,后者涉及任務執行的具體步驟。這兩者相輔相成,規劃基于感知的信息,而感知也受到規劃的影響。
多模態大模型通過視覺輸入生成相應的動作,這對自動駕駛有重要意義。結合多模態大模型和檢索增強生成(RAG)技術,可以對場景進行深度理解,從而實現更精確的感知和預測。多模態大模型的架構包括基礎模型、專用模型(知識圖譜構建的專業數據庫)和嵌入層(用于模態轉換)。多模態大模型在自動駕駛中的下游任務包括感知、導航、預測和決策等。這些任務可以通過全參數微調、部分參數微調和提示詞微調等方式進行優化。結合Bird's Eye View (BEV)和Transformer技術,可以提升模型在環境感知、障礙物檢測和路徑規劃等方面的能力,如圖7所示。
圖7 AI 自動駕駛大模型與下游微調任務
二、以路徑規劃為中心
在自動駕駛系統中,感知空間和動作空間是兩個關鍵的組成部分。感知空間涉及對環境的理解,包括障礙物識別、道路標志等;而動作空間則涉及實際的行為產生和決策執行。這兩個空間相互作用,形成了自動駕駛系統的核心功能。然而,我們需要思考的是:在這兩個空間中,哪個應作為主要中心?
從傳統的角度來看,大多數研究關注的是從感知空間到動作空間的邏輯,即先進行環境感知,再進行動作規劃和執行。這種順序是基于感知數據生成相應的行為。然而,從另一個角度看,動作空間也可以反向影響狀態空間,通過主動感知來優化感知策略和決策過程。因此,選擇哪個空間作為中心,實際上取決于系統的需求和具體應用場景。
復雜的邏輯推理是實現有效感知和決策的關鍵。空間轉換可以視為一種復雜的邏輯推理過程。在這個過程中,大型語言模型可以發揮重要作用,通過視覺和語言智能實現多模態的交叉理解和推理。這樣,可以實現從感知到動作的高效轉換,提升系統的智能水平,如圖8所示。
圖8 基于 LLM 的復雜的邏輯推理
為了增強復雜的邏輯推理能力,我們可以利用外部知識庫、搜索工具和領域知識。這些工具能夠提供額外的背景信息,支持更深入的理解和推理。例如,通過檢索增強生成技術,結合通用多模態大模型,可以進一步提升推理能力。此外,提示詞工程和思維鏈技術也能有效增強推理能力。
三、端到端純視覺交互式多模態智能體:自動駕駛3.0 與人形機器人的實現路徑
在自動駕駛3.0時代,我們不僅需要開發多模態的自動駕駛大模型,還要進一步發展成具有交互能力的智能體。這種智能體將融合視覺和語義的多模態理解,并具備在交互過程中展現更高智能水平的能力。
交叉理解是指將不同模態的信息在語義層面對齊。例如,通過先進的模型,可以將不同類型的輸入歸納為相同的語義類別,使得系統能夠互相補全信息,增強讀圖能力。同時,交互式智能體強調在真實物理空間中的智能體與其他智能體、環境以及人類的互動。通過這種互動,智能體能夠利用深度強化學習提升行動能力,甚至超越人類水平。這種交互不僅提升了智能體的決策和行為策略,還能使其在復雜環境中表現得更加出色,如圖9所示。
圖9 AI 領域中交叉與交互
智能車在自動駕駛中扮演著核心角色,需要與周圍環境及其他智能體進行有效的互動。通過在車道級地圖中提取交通元素,智能車可以優化其軌跡預測和補全。例如,當智能車發出轉向信號時,其他車輛的反應(可以通過交互得到優化,進而實現更高效的道路使用和交通流動。
智能體在時間維度上可以視為軌跡數據,這些軌跡數據必須符合物理學規律的連續性。這種連續性使得我們能夠進行軌跡的預測和補全。當遇到部分或完全遮擋時,可以利用軌跡數據進行有效的預測,從而超越人類感知的局限,實現對環境的更準確預測。
交互不僅涉及環境適應,還包括智能體的主動探索。通過在虛擬環境中進行訓練,可以顯著提高智能體的效率和安全性。這種方法避免了在真實世界中進行高風險試驗,減少了實驗成本,同時更高效地提升了智能體的性能。總的來說,未來的自動駕駛系統將依賴于多模態的視覺理解、強大的交互能力以及智能體的主動學習,以實現更智能和更安全的自動駕駛。在實現高級智能體時,虛擬世界的模擬和深度強化學習的結合顯得尤為重要。傳統的學習方式往往受限于物理世界中的高成本和低效率,而虛擬環境的應用可以極大地提升智能體的學習效率和能力。
人類在現實世界中的學習過程通常受到時間和資源的限制。例如,一個工人在一生中可能只能專注于一項技能,效率較低。然而,智能體在虛擬世界中進行學習和探索,可以突破這些限制。虛擬世界的高效交互學習使得智能體能夠在短時間內掌握多種技能,實現比人類更強的能力。這是因為虛擬世界可以模擬各種邊緣事件,智能體可以在其中進行大量的主動探索,從而獲得更全面的學習體驗。
構建一個完整的數字孿生系統,或者說一個虛實平行世界,雖然費用高昂,但它對于提升智能體的能力至關重要。數字孿生系統需要模擬現實世界的復雜性,包括物體的CAD造型、它們的相互關系以及動力學屬性,如圖10所示。這種系統不僅需要視覺上的逼真,還要求在運動學和動力學上的一致性。
圖10 世界模擬器與 深度強化學習的作用
近年來,像生成視頻技術的發展,為這一領域帶來了新的希望。通過簡單的文本提示,可以生成符合物理學規律的合成視頻數據。這種技術可以增強訓練數據,提升深度學習模型在復雜環境中的表現,最終實現最優策略的交互式探索。
智能體在虛擬世界中的表現,不僅能模仿人類行為,還能超越人類的能力。虛擬環境允許智能體同時處理多種任務,例如它可以在虛擬世界中既是泥瓦工,又是鐵匠,甚至在某些領域超越人類。這種全面的模擬和訓練,使得智能體能夠在真實環境中表現得更加優秀。
深度強化學習在虛擬環境中能夠快速提升智能體的行動能力。智能體在虛擬世界中進行交互,進行自主學習,能夠快速調整策略和行為,實現比人類更高水平的智能行為。通過將虛擬世界的經驗轉化為現實世界的應用,智能體能夠有效地完成復雜任務,并在某些領域超越人類水平。
在開放域環境中實現強化學習的自主探索面臨諸多挑戰,尤其是在如何在復雜且未定義的環境中進行有效的學習和決策方面。一個核心問題是如何定義智能體的智商,并與人類智商進行比較。這不僅有助于理解智能體是否能夠達到或超越人類的認知水平,還關系到通過交互式學習是否能實現這一目標。為了實現這種能力,智能體需要在大量的實驗和模擬中不斷調整和驗證。
另一個重要問題是如何在連續的潛空間中進行事件軌跡的學習。這包括在這種空間內生成最優的交互信息,以實現有效的學習。這種學習不僅要求理解事件的感知,還需要生成軌跡并進行動態的、開放域的交互式學習。如何在面對邊緣事件和長遠問題時保持學習的連貫性和有效性,是這一過程中必須解決的關鍵問題。
關于視覺智能的涌現,值得關注的是,是否存在一種情況,智能體在經過大量訓練后能夠自動理解和處理新的視覺數據,而無需進一步的示例或監督。這可能表明視覺智能的涌現,意味著智能體能夠在無需人工標注或額外訓練數據的情況下,自行理解和處理類似的圖像。
四、高階NOA 與 L3/L4 自動駕駛規模化產業落地分析
高級的NOA與L3、L4自動駕駛的規模化產業落地正成為當前的焦點。L2++的自動駕駛技術已經實現了商業化應用,成為智能電動汽車的標配,用戶和市場對其認可度不斷提高。無論是新能源汽車還是傳統燃油車,L2++的NOA已經被廣泛應用,提升了駕駛的便利性和安全性。
然而,L3和L4自動駕駛技術的商業化進程仍處于測試階段。例如,武漢的蘿卜快跑網約車和特斯拉的FSD V12等項目已經開始進行商業化運營,引起了廣泛的社會關注。這些技術曾被認為距離實際應用還有很長時間,但現在已經開始影響到我們的生活和就業。
L3和L4自動駕駛的主要挑戰包括進一步降低接管率、規范化規模化操作以及提升用戶體驗。與L2++的NOA不同,L3和L4的技術更加先進,L3級別的自動駕駛需要駕駛員保持一定的監督,但主要依賴自動化系統,而L4則進一步推進了無人駕駛,理論上不需要任何形式的安全員。
L2++和L3的區別在于法律責任的劃分。L2++階段,安全員仍需承擔主要的法律責任,而在L3階段,機器的責任逐漸增大,安全員的角色變為輔助。L4階段則是一個顛覆性的技術進步,不僅在技術層面上突破了傳統限制,也在產業戰略上具有重要意義。L4的實現標志著無人駕駛技術的成熟,將對整個行業產生深遠的影響。
技術路線的選擇在自動駕駛領域尤為重要,尤其是面對邊緣事件的處理、環境適應性提升以及自主性增強的需求。大模型技術提供了一個歷史性的機遇,使得端到端的解決方案成為可能。這種方法通過學習大規模的數據,能夠應對各種復雜情況,而不必窮舉所有可能的漏洞或情況。這意味著,盡管模型和代碼可能變得更簡單,但對數據的需求卻顯著增加。
當前,大模型在處理海量數據方面展現出強大的能力。例如,GPT在不到三年的時間內就能學習并處理大量的文本數據,遠超人類的學習能力。這種能力的實現離不開高效的自建模型學習和強大的計算資源。雖然大模型的開發和應用依賴于大量的數據,但其高效的學習能力使得它能夠模擬和處理復雜的語料,逐步具備初步的邏輯推理能力。
然而,AI技術的產業化部署面臨著高預算要求,特別是在高階視覺和長時空上下文訓練方面。自動駕駛的開放環境和長時間序列要求高效的訓練方式,同時需要綜合運用大語言模型、多模態視覺模型和通用世界模擬器。通用世界模擬器能夠生成合成視頻數據,從而補充訓練數據,但這也需要大量的計算資源。雖然大模型使得代碼和模型變得更加簡潔,但對數據的需求和計算資源的消耗仍然很大。
端到端的視頻動作解決方案對數據的需求極其高,需要大量的短視頻和動作數據來進行有效的訓練。這種解決方案的實現依賴于極大的AI算力,特別是在聯合預訓練階段。在這一階段,通常需要百萬量級的短視頻數據。短視頻因其信息量大且重復較少,適合用于大規模數據處理。預訓練階段是最為算力密集的,因為涉及到處理大量數據并建立初步模型。
在進行模型微調和測試端的規模化部署時,依然需要大量的算力。例如,在整個北京市或全國范圍內進行產業化部署時,需要的算力和能耗都是巨大的。經濟區訓練可能需要達到幾十萬的AI大算力規模,這對硬件資源的需求非常高,如圖11所示。
圖11 端到端視覺動作大模型
除了算力,數據的采集和清洗也是關鍵。為了構建有效的數據和數據閉環,需要處理百萬量級的短視頻和相應的動作序列數據。這些數據包括真實的視頻數據和合成的視頻數據。合成數據的比例可能隨著技術的發展而增大,這要求在數據處理過程中進行精確的分割和標注。
特別是在視頻數據處理中,需要精確的掩模分割,以確保每個視頻幀中的物體被準確標注,如圖12所示。雖然自監督學習可以減少對人工標簽的依賴,但初期的人工標注仍然是必要的。數據標注經歷了人工、半自動和全自動處理過程,以確保高質量的分割和標注結果。例如,車體和建筑風格的掩模分割需要特別精確,而行人等非規則形體的掩模分割則更具挑戰性。
圖12 數據采集與清洗
特斯拉早期就專注于自動駕駛數據的積累,并且在全球范圍內獲取了大量的真實短視頻數據。截至2021年,他們的數據量已經超過10億英里(約16億公里)。雖然這一數據量龐大,但數據的質量和標準仍然是一個關鍵問題。許多車企盡管已經開始積累數據,但在高質量數據的收集和處理上仍面臨挑戰。
企業的核心競爭力越來越依賴于數據,而不僅僅是算力。盡管算力可以通過采購或自主研發獲得,例如特斯拉已經在自建芯片和算力方面有所突破,但數據的獲取、處理和質量控制顯然更加復雜且重要。高質量的數據不僅是訓練模型的基礎,還直接影響到系統的準確性和可靠性。
在視覺神經網絡的應用中,數據的質量和多模態理解能力至關重要。自動駕駛系統需要處理的圖像數據不僅僅是視覺信息,還涉及到聽覺、語音等多模態信息的交叉理解。這種多模態感知能力對于精確的動作規劃和環境理解非常重要。系統需要在開放環境中進行有效的時空觀測和理解,以支持可靠的動作模擬和決策。
開放域問題是另一個關鍵挑戰。開放域視覺系統需要處理各種未見過的新類別和場景,具備強大的泛化能力。智能涌現和零樣本學習的研究方向在這方面展示了潛力,例如利用Transformer模型來實現更好的語義對齊和目標檢測技術,從而提升對開放域的處理能力。
在自動駕駛領域,端到端視覺動作模型是核心技術之一。這種模型集成了大量的數據和算力,能夠實現自動駕駛的核心功能,如環境感知、決策和控制。單車智能方案依賴于視覺系統,包括攝像頭、激光雷達和毫米波雷達等設備,用于實時感知周圍環境,進行動作規劃和決策。通過虛擬平行世界和模擬器的結合,能夠進行交互式學習和深度強化學習,從而提升自動駕駛的能力和安全性。利用合成視頻數據進行訓練,有助于提高系統的安全性和準確性,推動L3、L4和L5的商業化進程。
此外,將單車智能與智能路網結合的方案,包括車路云一體化,進一步提升了自動駕駛的安全性和效率,如圖13所示。在這一方案中,遠程安全員系統能夠通過大模型進行預測和監控,從而處理多輛車的復雜場景。這種一對多的安全管理模式降低了人力成本,并推動了商業模式的規模化。大模型在云計算和邊緣計算環境下的應用,使得商業化推廣和規模化成為可能。
圖13 單車智能+智能路網
要實現這些技術突破,還需要技術和政策的支持。技術創新需要在地面、云端或邊緣進行有效的支撐,以確保系統的穩定性和可靠性。同時,政策法規的支持,包括政府的激勵措施和創新支持,也是實現商業化落地的關鍵。建立車隊行駛的安全評估體系,提升對一對多云接管的安全預測能力,將幫助安全員實現對更多車輛的安全接管,從而推動自動駕駛技術的進步和商業化推廣。