亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

VLA模型能幫助純視覺自動駕駛走向成熟嗎?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-08-26 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]最近在和一位小伙伴交流時,他提出了一個非常有趣的問題:VLA模型是否更適合純視覺系統(tǒng)?它能幫助純視覺系統(tǒng)算法走向成熟嗎?這個問題非常有意思,對于這個問題,先講結論,VLA(Vision-Language-Action,視覺—語言—動作)不是純視覺系統(tǒng)的“一鍵升級包”,但它能為純視覺方案注入非常有價值的能力和訓練范式,推動算法走向更成熟的方向。換句話說,VLA模型給自動駕駛帶來的不是簡單的替代,而是新的工具箱和新的訓練思路,把它用在合適的位置、以合適的方法去融合和驗證,能讓純視覺系統(tǒng)變得更魯棒、更有語義理解力,但它也帶來新的復雜性、數據需求與工程風險,需要謹慎對待。

wKgZPGitDOyAZ3npAAAQo00DEvw362.jpg

什么是VLA?

在詳細聊今天的話題前,要先弄清“VLA是什么”。VLA一詞近兩年開始在學術界與產業(yè)圈流行起來,其核心思想是把視覺(camera圖像)、語言(自然語言或符號描述)和動作(機器人或車輛的控制指令、軌跡)放在同一個大模型里進行聯合建模和端到端訓練。典型的做法是先用大規(guī)模的視覺-語言模型(VLM)作為感知與推理的骨干,再在其上接一個動作解碼器,把視覺與語言得到的語義表示直接映射為連續(xù)或離散的動作輸出。VLM起初被用于機器人操控(例如RT-2的工作方向),隨后出現了開源的OpenVLA和一些面向通用具身控制的大模型(如近期行業(yè)報道中的Helix、NVIDIA等方案),這些都把“看得懂(vision)+聽得懂(language)”和“能做事(action)”連成了一條鏈。

wKgZO2itDOyAPzXnAABhun9Lczk106.jpg

那在談及VLA模型時,為什么會將其與“純視覺”放在同一個話題里比較?其實過去幾年里,視覺-語言大模型(VLM)展現了很強的泛化與推理能力,從圖像里抽取細粒度語義信息、結合世界知識做推斷、把場景轉換成可讀的自然語言描述,這些都是VLM的強項。而把這些能力和控制策略(動作)連接起來的想法,是為了做到“感知+推理+控制”的更緊耦合。對于自動駕駛汽車來說,若模型不僅可以告訴你前方有輛自行車,還可以根據目標和約束直接輸出可執(zhí)行的動作軌跡或轉向/速度指令,這樣有效提升自動駕駛的能力。大模型之所以被廣泛應用于自動駕駛,主要原因有兩點,一是“少模塊化,多端到端”的趨勢可以簡化工程鏈路、把隱含知識留在模型里;二是大模型的預訓練帶來了跨場景遷移能力,有機會減少為每個場景單獨標注的大量工時。這也解釋了為什么會把VLA用到自動駕駛——尤其是一些希望主要依靠攝像頭(純視覺)實現大部分感知與決策功能的團隊。

wKgZPGitDO2AOuABAAAR42n7O-I267.jpg

VLA真的更適合純視覺嗎?

VLA是否更適合純視覺系統(tǒng)?這個問題其實要分兩層來講,一是概念層面,二是工程/安全層面。從概念上討論,VLA天生是多模態(tài)的,它把語言作為中間的抽象層,使模型能用更高層次的語義去理解場景,這對于只靠像素信息的純視覺系統(tǒng)是個強補充。語言可以作為監(jiān)督信號、作為任務指令的載體,也可以提供對復雜交通場景的高階描述(比如“前方有人追球橫穿,注意減速讓行”),從而把視覺感知的“像素到語義”的映射變得更明確、更可解釋。換句話說,VLA為純視覺系統(tǒng)提供了一個更強的語義通道和訓練范式,這對提升視覺模型在長尾場景下的理解能力是有幫助的。

但工程與安全層面又把問題拉回現實。自動駕駛不是只看懂場景就夠了,它還要求確定性、實時性、可驗證性以及在各種傳感器失效條件下的冗余能力。當前行業(yè)內將自動駕駛系統(tǒng)拆成感知-定位-規(guī)劃-控制幾個模塊,這并非純粹為了便于功能區(qū)分,而是為了各層次的可控與可驗證。當把這些都塞進一個端到端的VLA模型里,將會面臨多個問題,其中包括動作輸出的精確度與時延能否滿足實時閉環(huán)控制需求?模型在極端少見場景下的失敗模式是否可被解釋并安全地退回?模型輸出是否能滿足法規(guī)/認證所需的確定性證明?這些問題在機器人領域被部分接受(因為機器人在某些實驗條件下能用高頻閉環(huán)控制、并有直接動作標簽做監(jiān)督),但在車規(guī)級自動駕駛上,特別是高速公路與復雜城市環(huán)境,風險容忍度低,監(jiān)管要求高,單純把控制交給一個大模型目前仍然困難重重。

wKgZO2itDPCAD8cIAAASG3BOmsQ752.jpg

VLA如何推動純視覺成熟?

那么VLA能如何“幫助”純視覺算法成熟?這里可以把它視為若干可借鑒、可組合的能力與工具。VLA的大規(guī)模多模態(tài)預訓練能給視覺模型帶來更強的語義表示,用語言監(jiān)督或對齊,視覺特征更容易學到“概念級”的判別力,進而提升小樣本場景下的魯棒性與可解釋性。對純視覺團隊來說,這等于把一批“世界知識”和“語義理解”注入到視覺特征上,而這些正是純像素監(jiān)督常常缺乏的。OpenVLA等開源工作已經展示了把大量示教數據與語言描述結合后,模型在跨任務泛化上的提升。

此外,VLA提供了新的監(jiān)督信號和訓練范式。傳統(tǒng)視覺感知的訓練主要是像素級或框級標簽(例如檢測框、語義分割標簽),這些標注既昂貴又難覆蓋長尾。VLA能把自然語言描述、指令序列或軌跡數據當作監(jiān)督,支持行為克隆、序列預測與從語言到動作的映射學習。這意味著在一些可控場景里,純視覺系統(tǒng)可以借助VLA-style的蒸餾或聯合訓練,學習到行為傾向(behavioralpriors)和策略級別的特征,從而在決策層面擁有更一致的語義基礎。行業(yè)里用VLM預訓練然后微調到動作任務,已經證明了這種思路的潛力。

VLA還可以作為“模擬到現實”橋梁與數據合成利器。純視覺系統(tǒng)在長尾極端場景上的缺樣本問題尤其明顯,而VLA的多模態(tài)預訓練和生成能力可以在模擬環(huán)境中生成帶有語言注釋的復雜交互樣本,或者把真實場景的視覺內容轉成結構化的語言描述用于擴充訓練集。這種利用語義級別增強的數據合成,比單純的像素增強更能補齊模型在理解復雜交通參與者行為上的短板,從而幫助純視覺感知模塊在語義判斷上更成熟。

以上都是“助力”的方面,再說說現實的限制與需要警惕的點。第一是動作監(jiān)督數據短缺且昂貴。要讓模型學會把視覺表示轉成安全可靠的控制命令,需要大量高質量的軌跡/控制數據(帶時間戳的閉環(huán)示教、各種速度/轉向控制序列等),這些數據比標注圖片要難得多。雖然在機器人社區(qū)出現了一些百萬級示教數據集(OpenX-Embodiment類),但車規(guī)級的多場景、長時間序列數據仍然稀缺,系統(tǒng)因此對示教數據的依賴會成為瓶頸。

第二是閉環(huán)控制頻率與延遲問題。車輛控制要求毫秒級別甚至更高的響應與穩(wěn)定性,而大型VLM/VLA的推理延遲和算力成本可能無法直接滿足這一點。行業(yè)里常見的做法是把VLA用作“慢思考”(高層決策、意圖預測、策略選擇)而不直接負責高頻控制環(huán),這樣既能利用VLA的推理能力,又保留傳統(tǒng)控制環(huán)的實時性與確定性。如把VLA輸出的高層指令(減速、超車、讓行)交給傳統(tǒng)的規(guī)劃與控制模塊去執(zhí)行,這是一種折衷的工程路徑。

第三是安全可驗證與退避策略。純視覺系統(tǒng)本身就有傳感器盲區(qū)與誤識別問題,把更多“決策責任”壓到端到端模型上,增加了不可預見的失敗模式。智駕最前沿以為,從合規(guī)與工程管理角度,實際可行的路線更傾向于混合架構,即用VLA提供豐富語義和策略建議,同時維持一個獨立的規(guī)則化安全棧(基于徑向冗余傳感器、規(guī)則判斷和基線控制器)來執(zhí)行最后的安全約束。換句話說,用VLA加強“智能”和“理解”,但不把生命線交出去。

wKgZO2itDPaAWA-5AAASAJELks8560.jpg

VLA應如何應用于純視覺?

那VLA可以如何應用于純視覺自動駕駛?其實我們可以把VLA看作“語義增強器”和“策略導師”,優(yōu)先用來提升感知的語義層面與策略級別的學習,而不是直接替代低層控制。可以采用的做法包括用VLM/VLA預訓練得到的視覺特征去初始化純視覺感知網絡;用語言對齊的信號去做多任務監(jiān)督(把檢測/分割/行為預測與描述性語言一起學);以及用VLA在模擬環(huán)境中合成帶文本標注的復雜交互場景來增強稀有長尾樣本。這樣可以把VLA的長處最大化,同時把風險降到可控范圍。

此外,數據治理要做好分級和校驗。把動作學習當作主訓練目標時,需要對示教數據做嚴格的質量控制和異常剔除,并配套構建能做因果歸因和反事實測試的離線評價體系。車輛的動作輸出不能只看在訓練集上的平均誤差,還必須評估極端情景、邊緣案例與連鎖反應的安全性。這就要求研發(fā)團隊在引入VLA時,投入等量甚至更多資源用于構建嚴密的仿真驗證、場景回放和閉環(huán)安全測試。

軟硬件協同設計更是不可或缺。VLA的計算量與推理特性決定了它的部署方式,是完全云端的輔助推理、邊緣加速的半實時部署,還是僅用于離線訓練與線上稀疏調用,每種選擇對應不同的延遲與安全權衡。對于以攝像頭為主的車輛,可以把VLA的推理任務劃分成“長期/慢速決策”和“短期/快速策略提示”兩類,把高頻控制留給車端的專用控制器,同時把VLA的高階輸出作為約束或建議融入規(guī)劃器。這樣既能利用VLA的通用性,也能滿足車規(guī)級的可靠性需求。

wKgZO2itDPeAAzsUAAARwcz1hbg949.jpg

總結

未來VLA會如何應用于自動駕駛?短期內,VLA在自動駕駛領域最現實的作用是成為“認知與策略的增強模塊”,它能把語義理解、長尾場景歸納和跨場景遷移做得更好,幫助純視覺系統(tǒng)在語義判斷和策略生成層面成熟。中期看,隨著數據量的積累、模型推理效率的提升以及可解釋性技術(如可控性約束、可證明安全退避)的進步,VLA有希望承擔更多高層決策任務,成為自動駕駛堆棧中不可或缺的一環(huán)。長期則是對“具身智能”的更宏大愿景,把車輛看成具備長期記憶、世界模型和自然語言交互能力的智能體,VLA這樣的范式會是基礎設施之一,開源項目(如OpenVLA)和商業(yè)嘗試(RT-2、Helix、NVIDIA與車企的研究)都在證明這一點。

總結一下,VLA并不是單純替代純視覺系統(tǒng)的“捷徑”,而是一套強有力的工具和訓練范式。它能把語言作為橋梁,把視覺表示提升到語義級別,能帶來更好的跨場景泛化和更強的策略學習能力,這對純視覺算法的成熟有明確的正向作用。對行業(yè)來說,當前值得投入的方向包括如何高效利用VLM預訓練特征、如何用語言信號做強化/模仿學習的橋接、如何在仿真與現實之間縮小差距、以及如何設計可驗證的退避與冗余機制。只要把這些問題弄扎實,VLA對純視覺系統(tǒng)的成熟將是真正有價值的推動力。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • Vla
    Vla
    +關注

    關注

    0

    文章

    12

    瀏覽量

    5870
  • 自動駕駛
    +關注

    關注

    791

    文章

    14604

    瀏覽量

    175193
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術發(fā)展,其實現路徑也呈現出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界
    的頭像 發(fā)表于 11-05 08:55 ?336次閱讀
    <b class='flag-5'>VLA</b>和世界<b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動駕駛</b>的最優(yōu)解?

    自動駕駛上常提的VLA與世界模型有什么區(qū)別?

    自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標是把相機或傳感器看到的畫面、
    的頭像 發(fā)表于 10-18 10:15 ?535次閱讀

    自動駕駛中常提的世界模型是個啥?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術的不斷成熟,車輛需要在復雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。世界模型可以被看作一種
    的頭像 發(fā)表于 06-24 08:53 ?557次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的世界<b class='flag-5'>模型</b>是個啥?

    自動駕駛視覺方案到底有哪些弊端?

    [首發(fā)于智駕最前沿微信公眾號]隨著人工智能與傳感器技術的快速發(fā)展,自動駕駛汽車逐步走入公眾視野。其中,關于感知系統(tǒng)的技術路線選擇,始終是大家爭論的焦點。尤其是“視覺方案”,也就是主要依賴攝像頭進行
    的頭像 發(fā)表于 06-23 09:27 ?597次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>純</b><b class='flag-5'>視覺</b>方案到底有哪些弊端?

    VLA,是完全自動駕駛的必經之路?

    芯片,以及英偉達Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當前智駕領域集中主流的大模型技術路線,以及各家廠商實現方式的區(qū)別和發(fā)展。 ? VLA 和VLM ?
    的頭像 發(fā)表于 06-18 00:06 ?8451次閱讀

    視覺自動駕駛會有哪些安全問題?

    強調視覺系統(tǒng)的先進性。視覺自動駕駛是指在車輛自動駕駛系統(tǒng)中僅依賴攝像頭而不使用激光雷達或毫米波雷達等主動傳感器。特斯拉率先倡導這一路線,宣
    的頭像 發(fā)表于 06-16 09:56 ?486次閱讀
    <b class='flag-5'>純</b><b class='flag-5'>視覺</b>的<b class='flag-5'>自動駕駛</b>會有哪些安全問題?

    自動駕駛視覺替代不了激光雷達?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術的不斷發(fā)展,視覺和激光雷達(LiDAR)兩種主流環(huán)境感知成為了大家的熱議話題?;跀z像頭的“視覺
    的頭像 發(fā)表于 06-11 09:06 ?508次閱讀

    視覺自動駕駛如何理解路邊畫報上的人?

    行業(yè)來說,其實是一個值得深思的問題。隨著自動駕駛技術下沉到消費市場,基于視覺自動駕駛系統(tǒng)就是依托于車載攝像頭來識別路況,如果遇到了類似海報上的人,尤其是遇到了與真人大小類似的人物海
    的頭像 發(fā)表于 05-19 09:16 ?443次閱讀

    自動駕駛模型中常提的Token是個啥?對自動駕駛有何影響?

    近年來,人工智能技術迅速發(fā)展,大規(guī)模深度學習模型(即大模型)在自然語言處理、計算機視覺、語音識別以及自動駕駛等多個領域取得了突破性進展。自動駕駛
    的頭像 發(fā)表于 03-28 09:16 ?825次閱讀

    理想汽車推出全新自動駕駛架構

    2025年3月18日,理想汽車自動駕駛技術研發(fā)負責人賈鵬在NVIDIA GTC 2025發(fā)表主題演講《VLA:邁向自動駕駛物理智能體的關鍵一步》,分享了理想汽車對于下一代自動駕駛技術M
    的頭像 發(fā)表于 03-19 14:12 ?808次閱讀

    2024年自動駕駛行業(yè)熱點技術盤點

    感知輕地圖以及視覺等。這些技術的出現,也代表著自動駕駛正從概念走向現實,今天就給大家來盤點2024年自動駕駛行業(yè)出現的那些技術熱點! ?
    的頭像 發(fā)表于 01-14 10:48 ?1006次閱讀

    馬斯克重申:視覺自動駕駛的未來

    近日,特斯拉始終堅持其獨特的視覺感知系統(tǒng)。這一系統(tǒng)摒棄了傳統(tǒng)的毫米波雷達,完全依賴于攝像頭與先進的人工神經網絡,以實現自動駕駛的功能。 特斯拉CEO埃隆·馬斯克近期再次就自動駕駛技術
    的頭像 發(fā)表于 12-04 14:09 ?1028次閱讀

    標貝科技:自動駕駛中的數據標注類別分享

    自動駕駛訓練模型成熟和穩(wěn)定離不開感知技術的成熟和穩(wěn)定,訓練自動駕駛感知模型需要使用大量準確真實
    的頭像 發(fā)表于 11-22 15:07 ?2578次閱讀
    標貝科技:<b class='flag-5'>自動駕駛</b>中的數據標注類別分享

    標貝科技:自動駕駛中的數據標注類別分享

    自動駕駛訓練模型成熟和穩(wěn)定離不開感知技術的成熟和穩(wěn)定,訓練自動駕駛感知模型需要使用大量準確真實
    的頭像 發(fā)表于 11-22 14:58 ?5001次閱讀
    標貝科技:<b class='flag-5'>自動駕駛</b>中的數據標注類別分享

    連接視覺語言大模型與端到端自動駕駛

    端到端自動駕駛在大規(guī)模駕駛數據上訓練,展現出很強的決策規(guī)劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為端到端模型缺乏常識知識和邏輯思維。
    的頭像 發(fā)表于 11-07 15:15 ?1003次閱讀
    連接<b class='flag-5'>視覺</b>語言大<b class='flag-5'>模型</b>與端到端<b class='flag-5'>自動駕駛</b>