在計算機(jī)視覺領(lǐng)域,一場技術(shù)革新風(fēng)暴正悄然掀起。近期落幕的國際計算機(jī)視覺大會(ICCV)上,特斯拉首次向外界深度揭秘其FSD(完全自動駕駛)系統(tǒng)的核心架構(gòu),這一舉動引發(fā)行業(yè)廣泛關(guān)注,也預(yù)示著自動駕駛技術(shù)邁向全新發(fā)展階段。
特斯拉自動駕駛副總裁阿肖克·埃魯斯瓦米在大會上介紹,F(xiàn)SD系統(tǒng)依托一個大型神經(jīng)網(wǎng)絡(luò),將攝像頭視頻、地圖、車速乃至音頻等多模態(tài)信息一股腦輸入其中,網(wǎng)絡(luò)直接輸出方向盤操作和油門控制指令。這意味著,過去感知、預(yù)測、決策、控制等獨(dú)立環(huán)節(jié),如今在一個網(wǎng)絡(luò)內(nèi)融合,通過反向傳播實(shí)現(xiàn)整體優(yōu)化。這種架構(gòu)與當(dāng)下熱議的“世界模型”概念高度契合。
所謂“世界模型”,可理解為AI構(gòu)建的“虛擬小宇宙”。它能將外界信息壓縮成內(nèi)部版本,并在此空間內(nèi)模擬未來場景。例如,它能預(yù)測踩油門后前車的反應(yīng)——是繼續(xù)前行還是緊急剎車。這種能力如同人類大腦的“預(yù)演”,是實(shí)現(xiàn)智能決策的關(guān)鍵。特斯拉的“神經(jīng)世界模擬器”正是此類模型的典型代表,它不僅能生成未來畫面,還能根據(jù)不同操作預(yù)測多種結(jié)果。
這一技術(shù)的優(yōu)勢在于,它不僅能提供“未來可能堵車”的籠統(tǒng)判斷,更能細(xì)化到“變道是否更快或更危險”的具體分析。通過在虛擬環(huán)境中反復(fù)測試新策略,甚至模擬極端場景,系統(tǒng)迭代速度大幅提升。例如,系統(tǒng)可在虛擬世界中嘗試不同變道時機(jī),評估風(fēng)險與收益,從而優(yōu)化實(shí)際駕駛決策。
圍繞自動駕駛技術(shù)路線,行業(yè)已形成兩大陣營。以特斯拉、蔚來、華為為代表的企業(yè)主張“世界模型”路線,認(rèn)為AI需真正理解物理世界,通過內(nèi)部模擬實(shí)現(xiàn)精準(zhǔn)決策;而理想、小米等企業(yè)則傾向“VLA(視覺-語言-行動)模型”,借助大語言模型的推理能力,將視覺信息轉(zhuǎn)化為文字描述,再通過語言邏輯制定策略。
兩條路線各有優(yōu)勢。世界模型更貼近物理現(xiàn)實(shí),擅長處理復(fù)雜動態(tài)環(huán)境,是高級別自動駕駛的核心技術(shù);VLA模型則憑借語言模型的常識推理能力,在應(yīng)對長尾場景(如罕見交通狀況)時更具潛力。例如,面對道路施工標(biāo)志模糊的情況,VLA模型可通過語言邏輯推斷施工類型,而世界模型則可能更依賴對物理環(huán)境的直接感知。
中國企業(yè)在世界模型領(lǐng)域已展現(xiàn)強(qiáng)勁實(shí)力。蔚來推出的NWM世界模型,可在100毫秒內(nèi)生成200多個應(yīng)對預(yù)案,并篩選最優(yōu)方案;華為的WEWA架構(gòu)則強(qiáng)調(diào)從傳感器信號到控制指令的直接映射,跳過語言轉(zhuǎn)換環(huán)節(jié),追求極致安全;商湯的“開悟”模型則聚焦仿真領(lǐng)域,通過AI生成海量高逼真訓(xùn)練數(shù)據(jù),降低車企研發(fā)成本。
這場技術(shù)競賽背后,是自動駕駛從輔助功能向完全自主的跨越。無論是特斯拉的“閉環(huán)神經(jīng)宇宙”,還是中國企業(yè)的多樣化探索,均指向同一目標(biāo):讓汽車成為具備感知、思考與決策能力的移動智能體。世界模型作為關(guān)鍵技術(shù),正成為企業(yè)爭奪L4級無人駕駛制高點(diǎn)的核心籌碼。
















