亚洲区成人a片在线观看-亚洲视频观看一区二区-97人妻精品一区二区三区免费-亚洲狠狠婷婷综合久久-久久精品娱乐亚洲领-可以直接看中文字幕av网址-欧美日韩高清午夜蜜桃大香蕉-91久久福利国产成人精品-亚洲美女毛片在线视频

電動新物種 - 新能源電動汽車行業(yè)媒體

VLA技術(shù)深度探討:小米陳龍、上交穆堯共話前沿挑戰(zhàn)與未來前景

   發(fā)布時間:2026-01-24 21:43 作者:江紫萱

在智能科技飛速發(fā)展的當(dāng)下,自動駕駛與具身智能機器人領(lǐng)域正經(jīng)歷著前所未有的變革。2025年末,首批L3級自動駕駛車型獲得準(zhǔn)入,標(biāo)志著中國智能駕駛產(chǎn)業(yè)正式邁入新紀(jì)元。與此同時,具身智能機器人領(lǐng)域在過去一年間也取得了令人矚目的進(jìn)展,從年初抓取蘋果都困難重重,到如今疊衣服成為行業(yè)入門任務(wù),甚至穿鞋帶這樣曾被視為遙不可及的精細(xì)操作也已被成功攻克。

在這場技術(shù)躍遷的背后,VLA(Vision-Language-Action,視覺語言動作大模型)技術(shù)扮演著至關(guān)重要的角色。與傳統(tǒng)的端到端模型不同,VLA將語言理解與推理能力引入物理世界的決策鏈路,賦予機器“看了就懂、懂了就做”的認(rèn)知能力。這一創(chuàng)新性的技術(shù)框架,不僅為自動駕駛和機器人領(lǐng)域帶來了新的發(fā)展機遇,也引發(fā)了行業(yè)內(nèi)的廣泛關(guān)注和討論。

自動駕駛領(lǐng)域,VLA技術(shù)的引入旨在解決傳統(tǒng)算法在長尾問題上的泛化性不足。傳統(tǒng)自動駕駛系統(tǒng)通常依賴模塊化設(shè)計,包括感知、預(yù)測和規(guī)控等模塊,但這些模塊在面對復(fù)雜多變的道路場景時,往往難以做出準(zhǔn)確決策。而VLA技術(shù)則通過引入語言模態(tài),利用大模型的泛化能力和推理能力,使自動駕駛系統(tǒng)能夠在遇到未見過的場景時,通過思考和推理做出更合理的決策。例如,在施工場景中,VLA技術(shù)能夠理解各種非結(jié)構(gòu)化的標(biāo)識牌,并據(jù)此規(guī)劃出安全的行駛路線。

在機器人領(lǐng)域,VLA技術(shù)的應(yīng)用同樣廣泛。具身智能機器人需要完成各種復(fù)雜任務(wù),這些任務(wù)往往涉及長程規(guī)劃和精細(xì)操作。VLA技術(shù)通過語言模態(tài),使機器人能夠理解人類指令,并將任務(wù)拆解為一系列子任務(wù)來執(zhí)行。例如,當(dāng)機器人聽到“幫我做一杯咖啡”的指令時,它能夠?qū)⑦@一抽象指令分解為拿出杯子、倒入咖啡粉、加入熱水等具體動作原語,并依次執(zhí)行。這種能力極大地提升了機器人的靈活性和適應(yīng)性,使其能夠更好地融入人類生活。

然而,VLA技術(shù)的興起也伴隨著爭議。在2025年世界機器人大會上,宇樹科技創(chuàng)始人王興興公開質(zhì)疑這一技術(shù)路線,認(rèn)為其在安全性、準(zhǔn)確率和效率等方面存在不足。這一質(zhì)疑引發(fā)了行業(yè)內(nèi)的熱議,也促使研究者們更加深入地思考VLA技術(shù)的本質(zhì)、挑戰(zhàn)與前景。

針對VLA技術(shù)的爭議,小米汽車智能駕駛VLA技術(shù)負(fù)責(zé)人陳龍和上海交通大學(xué)計算機學(xué)院助理教授穆堯從不同角度進(jìn)行了回應(yīng)。陳龍認(rèn)為,VLA技術(shù)雖然目前存在一些問題,如效率不高、幻覺問題等,但其潛力巨大,是現(xiàn)階段最能實現(xiàn)物理世界AGI(通用人工智能)的框架之一。他強調(diào),語言是人類智慧的結(jié)晶,互聯(lián)網(wǎng)上的大量數(shù)據(jù)融合了人類的很多智慧,VLA技術(shù)通過利用這些數(shù)據(jù),能夠?qū)W習(xí)到人類對世界的定義和價值觀,從而做出更合理的決策。

穆堯則從機器人領(lǐng)域的角度出發(fā),認(rèn)為VLA技術(shù)為機器人帶來了前所未有的機會。他指出,具身智能機器人與傳統(tǒng)的機器人研究不同,更關(guān)注泛化性,包括對場景的泛化性、視覺和物理上的泛化性等。VLA技術(shù)通過引入語言模態(tài),使機器人能夠更好地理解人類指令,并在復(fù)雜環(huán)境中做出靈活應(yīng)對。雖然目前VLA技術(shù)在機器人領(lǐng)域的應(yīng)用還面臨一些挑戰(zhàn),如數(shù)據(jù)獲取困難、模型部署復(fù)雜等,但隨著技術(shù)的不斷發(fā)展,這些問題有望逐步得到解決。

在探討VLA技術(shù)的未來發(fā)展方向時,陳龍和穆堯都提到了數(shù)據(jù)的重要性。陳龍指出,自動駕駛領(lǐng)域的數(shù)據(jù)獲取相對容易,因為所有跑在路上的車都可以回流作為專家數(shù)據(jù)。而機器人領(lǐng)域的數(shù)據(jù)獲取則困難得多,目前主要依賴仿真合成數(shù)據(jù)和人類采集數(shù)據(jù)。為了解決這一問題,穆堯提出了“人-數(shù)字人-機器人”一體的架構(gòu),希望通過搭建從人的行為到機器人行為的調(diào)節(jié)管道,提高人類數(shù)據(jù)的利用效率,并為仿真合成數(shù)據(jù)注入人類豐富的行為信息。

除了數(shù)據(jù)問題外,VLA技術(shù)的安全性也是研究者們關(guān)注的焦點。在自動駕駛和機器人與人類交互的過程中,安全性是至關(guān)重要的。穆堯認(rèn)為,強化學(xué)習(xí)是提升VLA技術(shù)安全性的有效手段之一。通過強化學(xué)習(xí),可以使機器人在意識層面和行為動作層面都更加安全可靠。陳龍則強調(diào)了系統(tǒng)層面上的安全性冗余設(shè)計,他認(rèn)為在自動駕駛這樣對安全性要求極高的場景中,需要多個網(wǎng)絡(luò)做兜底,以確保在VLA模型出現(xiàn)錯誤時能夠及時做出安全操作。

在實時性方面,VLA技術(shù)也面臨一定的挑戰(zhàn)。由于語言決策邏輯的加入,模型的響應(yīng)時間可能會變長。為了解決這一問題,研究者們提出了多種方案。例如,采用雙系統(tǒng)設(shè)計,將VLA作為慢通路負(fù)責(zé)深度思考,同時采用另一個快系統(tǒng)負(fù)責(zé)快速響應(yīng);或者采用異步推理設(shè)計,使推理和執(zhí)行過程并行進(jìn)行,以提高系統(tǒng)的整體響應(yīng)速度。這些方案都在一定程度上緩解了VLA技術(shù)的實時性問題。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新