該論文的第一作者和通訊作者均來自北京大學王選計算機研究所的 VDIG (Visual Data Interpreting and Generation) 實驗室,第一作者為北京大學博士生周嘯宇,通訊作者為博士生導師王勇濤副研究員自動化。VDIG 實驗室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會上有多項重量級成果發(fā)表,多次榮獲國內(nèi)外 CV 領(lǐng)域重量級競賽的冠亞軍獎項,和國內(nèi)外知名高校、科研機構(gòu)廣泛開展合作。
本文介紹了來自北京大學王選計算機研究所王勇濤團隊及合作者的最新研究成果 AutoOcc自動化。針對開放自動駕駛場景,該篇工作提出了一個高效、高質(zhì)量的 Open-ended 三維語義占據(jù)柵格真值標注框架,無需任何人類標注即可超越現(xiàn)有語義占據(jù)柵格自動化標注和預測管線,并展現(xiàn)優(yōu)秀的通用性和泛化能力,論文已被 ICCV 2025 錄用為 Highlight。
論文標題:AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
論文鏈接:
論文概述
三維語義占據(jù)柵格近年來在自動駕駛與具身智能領(lǐng)域受到了廣泛關(guān)注自動化。然而,如何從原始傳感器數(shù)據(jù)中低成本地自動生成精確且完整的語義占據(jù)標注,仍是一個極具挑戰(zhàn)性的問題。
本文提出了 AutoOcc,一個無需人工標注、不依賴預設類別的全自動開放式 3D 語義占據(jù)標注框架自動化。AutoOcc 利用視覺-語言模型(VLM)生成的語義注意力圖對場景進行描述并動態(tài)擴展語義列表,并通過自估計光流模塊在時序渲染中識別并處理動態(tài)物體。
展開全文
我們還提出了具有開放語義感知的 3D 高斯表示(VL-GS),能夠?qū)崿F(xiàn)自動駕駛場景的完整三維幾何和語義建模,在表征效率、準確性和感知能力上表現(xiàn)突出自動化。
充分的實驗表明,AutoOcc 優(yōu)于現(xiàn)有的三維語義占據(jù)柵格自動化標注和預測方法,并在跨數(shù)據(jù)集評估中展現(xiàn)出卓越的零樣本泛化能力自動化。
3D 真值標注困境:從人工成本到閉集感知
語義 3D 占據(jù)柵格(Occupancy)作為一種融合幾何與語義信息的建模方法,逐漸成為復雜場景理解的重要技術(shù)自動化。然而,傳統(tǒng)的人工標注管線需要高昂的人力和時間成本,并且在極端環(huán)境下存在誤標注等問題。當前有監(jiān)督的占據(jù)柵格預測方法高度依賴大規(guī)模人工標注的數(shù)據(jù)集與有監(jiān)督訓練機制,不僅成本高昂,且泛化能力有限,嚴重制約了其在實際場景中的推廣與應用。
現(xiàn)有自動化與半自動化語義占據(jù)柵格真值標注方法普遍依賴 LiDAR 點云及人工預標注的 2D 或 3D 真值自動化。同時,這些方法依賴多階段后處理,耗時冗長。部分基于自監(jiān)督的估計方法雖在一定程度上降低了標注依賴,但是難以生成完整且一致的場景語義占據(jù)表示,三維一致性難以保障,且缺乏良好的跨場景、跨數(shù)據(jù)集泛化能力。
圖1 現(xiàn)有三維語義占據(jù)柵格真值標注管線與 AutoOcc 的對比
AutoOcc:視覺中心的 Open-Ended 3D 真值標注管線
為了解決這些關(guān)鍵問題,本文提出了 AutoOcc,一個高效、高質(zhì)量的 Open-ended 三維語義占據(jù)柵格真值生成框架自動化。AutoOcc 基于視覺語言模型和視覺基礎(chǔ)模型,從多視圖場景重建的視角出發(fā),無需任何人類標注即可超越現(xiàn)有 Occupancy 標注和預測管線,并展現(xiàn)良好的通用性和泛化能力。AutoOcc 的整體架構(gòu)如下圖所示:
圖2 AutoOcc 三維語義占據(jù)柵格真值標注管線
AutoOcc 以環(huán)視駕駛場景的圖像序列為輸入,通過設定的固定文本提示,檢索場景中可能存在的所有語義類型的物體自動化。AutoOcc 還支持 LiDAR 點云作為可選輸入,用于提供更強的幾何先驗約束。
表1 AutoOcc 與現(xiàn)有占據(jù)柵格真值標注管線比較
a、 視覺-語言引導的語義先驗
人工標注需要高昂的人力成本和時間開銷自動化。相比之下,視覺語言模型(VLMs)提供了高效且低成本的開放語義感知能力。然而,當前的 VLMs 與視覺基礎(chǔ)模型(VFMs)仍主要適用于單幀 2D 圖像任務,難以有效處理多模態(tài)交互與多視圖一致性問題,從而導致三維語義歧義,且缺乏對整體三維空間的全局理解。
為此,我們提出一種以語義注意力圖為核心的引導框架,并通過場景重建消解語義與幾何歧義,從而實現(xiàn)三維語義與幾何信息的協(xié)同一致表達自動化。具體地,我們采用統(tǒng)一的提示詞「找出場景中的所有物體」,并通過 VLM 生成語義注意力圖。
我們將這些語義類別對應的注意力柵格化為動態(tài)更新的特征圖,并構(gòu)建了一個可動態(tài)更新的查詢列表,用于整合 VLMs 生成的語義信息自動化。我們接著將語義注意力特征輸入預訓練分割模型,在感興趣區(qū)域生成多個候選掩碼,并進一步融合為實例級候選掩碼,選取與語義注意力查詢嵌入相似度最高的掩碼作為輸出結(jié)果。
b、 具有語義-幾何感知的 VL-GS
盡管視覺-語言模型引導提供了語義先驗信息,直接用這些信息生成三維占據(jù)真值標注仍面臨三大核心挑戰(zhàn):1)多視角間的 2D 語義沖突導致簡單的 2D-to-3D 投影出現(xiàn)對齊誤差與語義歧義;2)深度估計誤差可能導致三維的幾何扭曲;3)駕駛場景的高速動態(tài)物體干擾語義與幾何的時空一致性自動化。
為了克服這些挑戰(zhàn),我們首次從三維重建的視角出發(fā)構(gòu)建語義占據(jù)柵格真值標注管線自動化。具體地,我們提出了 VL-GS,這是一種具有語義-幾何感知的 3D 表征方法,通過融合基于注意力的先驗與可微渲染,實現(xiàn)高效場景重建,并保持語義與幾何在三維空間中的一致性。
VL-GS 的核心在于具備語義感知能力的可擴展高斯,通過視覺語言模型生成的語義注意力圖提供先驗引導,并在多視圖重建過程中平滑語義歧義,優(yōu)化實例的幾何細節(jié)自動化。我們引入自估計光流模塊,結(jié)合時間感知的動態(tài)高斯,有效捕捉并重建場景中的動態(tài)物體。AutoOcc 可以將 VL-GS 按任意體素尺度 splatting 到體素網(wǎng)格中,并依據(jù)高斯的占據(jù)范圍與不透明度進行加權(quán),確定每個體素的語義標簽。
圖3 具有語義-幾何感知的 VL-GS
實驗結(jié)果
我們使用 2 個基準自動駕駛數(shù)據(jù)集來評估模型的性能自動化。其中,Occ3D-nuScenes 用于與現(xiàn)有占據(jù)柵格真值標注方法在特定語義類別上進行性能對比,SemanticKITTI 用于驗證方法在跨數(shù)據(jù)集與未知類別上的零樣本泛化能力。AutoOcc 在環(huán)視駕駛數(shù)據(jù)集 Occ3D-nuScenes 上與現(xiàn)有最先進的方法比較結(jié)果如下表所示:
表2 語義占據(jù)柵格真值標注性能比較
實驗結(jié)果表明 AutoOcc 超越了現(xiàn)有單模態(tài)和多模態(tài)的語義占據(jù)柵格預測和真值生成模型自動化。相比于基于點云體素化和語義投影的離線語義占據(jù)標注流程,我們的方法展現(xiàn)出更強的魯棒性和開放式語義標注能力。
在跨數(shù)據(jù)集與未知類別上的零樣本泛化能力評估中,AutoOcc 也取得了顯著的泛化性優(yōu)勢,能夠?qū)崿F(xiàn) Open-Ended 開放詞匯三維語義感知自動化。
表3 跨數(shù)據(jù)集零樣本泛化性能比較
如下圖定性實驗結(jié)果所示,AutoOcc 能夠在時間序列上保持語義和幾何的三維一致性,準確捕捉動態(tài)物體的運動狀態(tài),并在極端天氣條件下(如雨天、霧天、黑夜)實現(xiàn)完整的語義占據(jù)標注自動化。AutoOcc 的標注結(jié)果可以達到甚至超越人工標注真值水平。例如,在因雨水導致反光的路面區(qū)域,AutoOcc 可以成功重建并生成正確的語義-幾何占據(jù)。
圖4 AutoOcc 定性實驗結(jié)果比較
圖5 AutoOcc 與人工標注在極端天氣下的比較
我們還進一步評估了 AutoOcc 與現(xiàn)有標注框架的模型效率自動化。結(jié)果表明,我們的方法在計算開銷上具備顯著優(yōu)勢,在提升標注性能的同時降低內(nèi)存和時間開銷。相比之下,基于稠密體素和點云的場景表示存在冗余的計算成本。AutoOcc 實現(xiàn)了效率與靈活性的良好平衡,支持開放式語義占據(jù)標注與場景感知重建,且無需依賴人工標注。
表4 模型效率評估
結(jié)論
本文提出了 AutoOcc,一個以視覺為核心的自動化開放語義三維占據(jù)柵格標注管線,融合了視覺語言模型引導的可微 3D 高斯技術(shù)自動化。我們的方法提供了多視圖重建視角下的數(shù)據(jù)標注思路。在無需任何人工標注的前提下,AutoOcc 在開放 3D 語義占據(jù)柵格真值標注任務中達到當前最先進水平。