在NVIDIA GTC 2026大會上,理想汽車基座模型負責人詹錕發(fā)表了題為《MindVLA-o1:開啟全能范式 —— 下一代統(tǒng)一視覺-語言-動作自動駕駛大模型探索》的主題演講,正式推出其新一代自動駕駛基礎模型MindVLA-o1。這一突破性成果標志著自動駕駛技術向物理世界智能邁出了重要一步。

MindVLA-o1的核心創(chuàng)新體現(xiàn)在五大技術維度。在3D空間理解方面,該模型突破了傳統(tǒng)二維圖像處理的局限,通過融合攝像頭與激光雷達數(shù)據(jù),構建出三維編碼器系統(tǒng)。這一技術使車輛能夠精準感知物體的深度、距離及運動軌跡,實現(xiàn)與人類駕駛員相似的三維空間認知能力,為復雜路況下的決策提供可靠依據(jù)。
多模態(tài)思考能力是該模型的另一大亮點。基于隱世界模型架構,MindVLA-o1具備"預演未來"的獨特功能。系統(tǒng)不僅能實時分析當前場景,還能在虛擬空間中模擬未來數(shù)秒可能發(fā)生的多種情況,從而提前制定最優(yōu)應對策略。這種前瞻性思維模式顯著提升了自動駕駛系統(tǒng)的決策質(zhì)量與安全性。
在行為生成層面,VLA-MoE架構的引入實現(xiàn)了行駛軌跡的統(tǒng)一優(yōu)化。系統(tǒng)配備的"動作專家"模塊可同步生成所有軌跡點,并通過類似信號去噪的優(yōu)化算法,確保車輛運動既符合物理規(guī)律又保持平穩(wěn)流暢。這種設計有效解決了傳統(tǒng)方案中軌跡規(guī)劃與執(zhí)行脫節(jié)的問題。
訓練效率的革命性提升得益于閉環(huán)強化學習技術。理想汽車構建的世界模擬器為模型提供了虛擬訓練場域,使系統(tǒng)能夠在虛擬環(huán)境中進行海量場景練習與策略優(yōu)化。這種訓練方式不僅大幅降低了現(xiàn)實道路測試的成本與風險,更將模型迭代速度提升了數(shù)個量級。
軟硬件協(xié)同設計突破了模型部署的技術瓶頸。通過精確平衡模型精度與硬件延遲,研發(fā)團隊將架構設計周期從數(shù)月壓縮至數(shù)天。這種高效設計確保了復雜大模型能夠在車端芯片上穩(wěn)定運行,為自動駕駛系統(tǒng)的量產(chǎn)落地掃清了關鍵障礙。

















