VLA技術(shù)深度探討：小米陳龍、上交穆堯共話前沿挑戰(zhàn)與未來前景

發(fā)布時間：2026-01-24 21:43 來源：快訊作者：江紫萱

在智能科技飛速發(fā)展的當(dāng)下，自動駕駛與具身智能機器人領(lǐng)域正經(jīng)歷著前所未有的變革。2025年末，首批L3級自動駕駛車型獲得準(zhǔn)入，標(biāo)志著中國智能駕駛產(chǎn)業(yè)正式邁入新紀(jì)元。與此同時，具身智能機器人領(lǐng)域在過去一年間也取得了令人矚目的進(jìn)展，從年初抓取蘋果都困難重重，到如今疊衣服成為行業(yè)入門任務(wù)，甚至穿鞋帶這樣曾被視為遙不可及的精細(xì)操作也已被成功攻克。

在這場技術(shù)躍遷的背后，VLA（Vision-Language-Action，視覺語言動作大模型）技術(shù)扮演著至關(guān)重要的角色。與傳統(tǒng)的端到端模型不同，VLA將語言理解與推理能力引入物理世界的決策鏈路，賦予機器“看了就懂、懂了就做”的認(rèn)知能力。這一創(chuàng)新性的技術(shù)框架，不僅為自動駕駛和機器人領(lǐng)域帶來了新的發(fā)展機遇，也引發(fā)了行業(yè)內(nèi)的廣泛關(guān)注和討論。

自動駕駛領(lǐng)域，VLA技術(shù)的引入旨在解決傳統(tǒng)算法在長尾問題上的泛化性不足。傳統(tǒng)自動駕駛系統(tǒng)通常依賴模塊化設(shè)計，包括感知、預(yù)測和規(guī)控等模塊，但這些模塊在面對復(fù)雜多變的道路場景時，往往難以做出準(zhǔn)確決策。而VLA技術(shù)則通過引入語言模態(tài)，利用大模型的泛化能力和推理能力，使自動駕駛系統(tǒng)能夠在遇到未見過的場景時，通過思考和推理做出更合理的決策。例如，在施工場景中，VLA技術(shù)能夠理解各種非結(jié)構(gòu)化的標(biāo)識牌，并據(jù)此規(guī)劃出安全的行駛路線。

在機器人領(lǐng)域，VLA技術(shù)的應(yīng)用同樣廣泛。具身智能機器人需要完成各種復(fù)雜任務(wù)，這些任務(wù)往往涉及長程規(guī)劃和精細(xì)操作。VLA技術(shù)通過語言模態(tài)，使機器人能夠理解人類指令，并將任務(wù)拆解為一系列子任務(wù)來執(zhí)行。例如，當(dāng)機器人聽到“幫我做一杯咖啡”的指令時，它能夠?qū)⑦@一抽象指令分解為拿出杯子、倒入咖啡粉、加入熱水等具體動作原語，并依次執(zhí)行。這種能力極大地提升了機器人的靈活性和適應(yīng)性，使其能夠更好地融入人類生活。

然而，VLA技術(shù)的興起也伴隨著爭議。在2025年世界機器人大會上，宇樹科技創(chuàng)始人王興興公開質(zhì)疑這一技術(shù)路線，認(rèn)為其在安全性、準(zhǔn)確率和效率等方面存在不足。這一質(zhì)疑引發(fā)了行業(yè)內(nèi)的熱議，也促使研究者們更加深入地思考VLA技術(shù)的本質(zhì)、挑戰(zhàn)與前景。

針對VLA技術(shù)的爭議，小米汽車智能駕駛VLA技術(shù)負(fù)責(zé)人陳龍和上海交通大學(xué)計算機學(xué)院助理教授穆堯從不同角度進(jìn)行了回應(yīng)。陳龍認(rèn)為，VLA技術(shù)雖然目前存在一些問題，如效率不高、幻覺問題等，但其潛力巨大，是現(xiàn)階段最能實現(xiàn)物理世界AGI（通用人工智能）的框架之一。他強調(diào)，語言是人類智慧的結(jié)晶，互聯(lián)網(wǎng)上的大量數(shù)據(jù)融合了人類的很多智慧，VLA技術(shù)通過利用這些數(shù)據(jù)，能夠?qū)W習(xí)到人類對世界的定義和價值觀，從而做出更合理的決策。

穆堯則從機器人領(lǐng)域的角度出發(fā)，認(rèn)為VLA技術(shù)為機器人帶來了前所未有的機會。他指出，具身智能機器人與傳統(tǒng)的機器人研究不同，更關(guān)注泛化性，包括對場景的泛化性、視覺和物理上的泛化性等。VLA技術(shù)通過引入語言模態(tài)，使機器人能夠更好地理解人類指令，并在復(fù)雜環(huán)境中做出靈活應(yīng)對。雖然目前VLA技術(shù)在機器人領(lǐng)域的應(yīng)用還面臨一些挑戰(zhàn)，如數(shù)據(jù)獲取困難、模型部署復(fù)雜等，但隨著技術(shù)的不斷發(fā)展，這些問題有望逐步得到解決。

在探討VLA技術(shù)的未來發(fā)展方向時，陳龍和穆堯都提到了數(shù)據(jù)的重要性。陳龍指出，自動駕駛領(lǐng)域的數(shù)據(jù)獲取相對容易，因為所有跑在路上的車都可以回流作為專家數(shù)據(jù)。而機器人領(lǐng)域的數(shù)據(jù)獲取則困難得多，目前主要依賴仿真合成數(shù)據(jù)和人類采集數(shù)據(jù)。為了解決這一問題，穆堯提出了“人-數(shù)字人-機器人”一體的架構(gòu)，希望通過搭建從人的行為到機器人行為的調(diào)節(jié)管道，提高人類數(shù)據(jù)的利用效率，并為仿真合成數(shù)據(jù)注入人類豐富的行為信息。

除了數(shù)據(jù)問題外，VLA技術(shù)的安全性也是研究者們關(guān)注的焦點。在自動駕駛和機器人與人類交互的過程中，安全性是至關(guān)重要的。穆堯認(rèn)為，強化學(xué)習(xí)是提升VLA技術(shù)安全性的有效手段之一。通過強化學(xué)習(xí)，可以使機器人在意識層面和行為動作層面都更加安全可靠。陳龍則強調(diào)了系統(tǒng)層面上的安全性冗余設(shè)計，他認(rèn)為在自動駕駛這樣對安全性要求極高的場景中，需要多個網(wǎng)絡(luò)做兜底，以確保在VLA模型出現(xiàn)錯誤時能夠及時做出安全操作。

在實時性方面，VLA技術(shù)也面臨一定的挑戰(zhàn)。由于語言決策邏輯的加入，模型的響應(yīng)時間可能會變長。為了解決這一問題，研究者們提出了多種方案。例如，采用雙系統(tǒng)設(shè)計，將VLA作為慢通路負(fù)責(zé)深度思考，同時采用另一個快系統(tǒng)負(fù)責(zé)快速響應(yīng)；或者采用異步推理設(shè)計，使推理和執(zhí)行過程并行進(jìn)行，以提高系統(tǒng)的整體響應(yīng)速度。這些方案都在一定程度上緩解了VLA技術(shù)的實時性問題。

更多>同類內(nèi)容