在NVIDIA GTC 2026大會(huì)上,理想汽車基座模型負(fù)責(zé)人詹錕以《MindVLA-o1:開啟全能范式——下一代統(tǒng)一視覺-語言-動(dòng)作自動(dòng)駕駛大模型探索》為主題發(fā)表演講,正式發(fā)布新一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1。這一突破性成果標(biāo)志著自動(dòng)駕駛技術(shù)向更高效、更智能的方向邁出關(guān)鍵一步。

MindVLA-o1的核心優(yōu)勢(shì)在于五大技術(shù)創(chuàng)新:3D空間理解技術(shù)讓車輛具備更精準(zhǔn)的環(huán)境感知能力;多模態(tài)思考機(jī)制實(shí)現(xiàn)視覺、語言與動(dòng)作的深度融合;統(tǒng)一行為生成框架確保決策的一致性與高效性;閉環(huán)強(qiáng)化學(xué)習(xí)體系支持模型持續(xù)自我優(yōu)化;軟硬件協(xié)同設(shè)計(jì)則大幅提升了部署效率。這些技術(shù)共同構(gòu)建起一個(gè)完整的AI閉環(huán),使自動(dòng)駕駛系統(tǒng)能夠"看得更遠(yuǎn)、想得更深、行得更穩(wěn)、進(jìn)化更快、部署更高效"。
詹錕在演講中特別強(qiáng)調(diào),MindVLA-o1采用原生多模態(tài)MoE Transformer架構(gòu),這是面向物理世界智能設(shè)計(jì)的專用模型。該架構(gòu)突破了傳統(tǒng)自動(dòng)駕駛模型的局限,不僅實(shí)現(xiàn)了感知、理解、行動(dòng)的有機(jī)統(tǒng)一,更通過持續(xù)優(yōu)化機(jī)制構(gòu)建起自我進(jìn)化的能力。這種設(shè)計(jì)理念使得同一套VLA模型既能應(yīng)用于車輛控制,也可擴(kuò)展至機(jī)器人等物理系統(tǒng),為通用人工智能的發(fā)展開辟了新路徑。

回顧發(fā)展歷程,理想汽車自2021年啟動(dòng)輔助駕駛自研項(xiàng)目以來,始終保持技術(shù)迭代速度:2024年實(shí)現(xiàn)端到端+VLM雙系統(tǒng)架構(gòu)的量產(chǎn)交付;2025年推出VLA司機(jī)大模型并全量推送至AD Max用戶,月使用率達(dá)到80%。這些積累為MindVLA-o1的研發(fā)奠定了堅(jiān)實(shí)基礎(chǔ)。新模型的問世,不僅代表著自動(dòng)駕駛技術(shù)的重大突破,更預(yù)示著物理AI時(shí)代的全面來臨——自動(dòng)駕駛僅是這個(gè)宏大圖景的起點(diǎn)。


















