好的,我們來詳細解析 ??Kimera??。這是一個在機器人領域非常有影響力的開源項目,它提供了一個完整、魯棒且實時的??空間感知??系統。Kimera 的核心思想非常優雅:??將 SLAM 的幾何重建與語義理解緊密融合在一個統一的、輕量度的度量-語義(Metric-Semantic) 3D 地圖中。?

二、Kimera 的核心思想:分層混合估計
Kimera 的名字源自希臘神話中的怪物 ??Chimera??,它由不同動物的部分組成。這隱喻了 Kimera 系統將不同的組件(快速視覺慣性里程計、3D網格重建、語義標注)融合成一個強大的整體。其核心是構建一個包含四個層次的??度量-語義地圖??:
層次一:度量層——精確的幾何與位姿
- ??目標??:實時估計精確的機器人軌跡和環境的稠密幾何。
- ??實現??:
- ??Kimera-VIO??:一個??快速、魯棒的視覺慣性里程計??模塊。它融合相機圖像和IMU數據,以高頻輸出機器人精確的位姿估計。這是整個系統的基礎。
- ??Kimera-Mesher??:利用 VIO 的位姿和相機圖像,實時構建一個??輕量度的 3D 網格??。與龐大的點云不同,網格明確表示了表面,更輕量且更具物理意義(例如,可用于避障和路徑規劃)。
層次二:語義層——為幾何賦予意義
- ??目標??:識別環境中的語義實體(如房間、物體、結構)。
- ??實現??:
- ??Kimera-Semantics??:這是 Kimera 的靈魂。它采用一種??2D-3D 聯合推理??的方法:
- ??步驟A(2D語義分割)??:對每一幀輸入的 2D 圖像,使用一個輕量級的深度學習模型(如 PSPNet)進行像素級語義分割(例如,將像素分類為“地板”、“墻壁”、“椅子”等)。
- ??步驟B(3D語義融合)??:將這些 2D 語義標簽??反向投影??并融合到 Kimera-Mesher 生成的 3D 網格中。具體來說,它使用一個??3D語義卷??,每個體素不僅存儲幾何信息(如 TSDF 值),還存儲一個??語義概率分布??(即,這個體素是“椅子”的概率是 0.9,是“桌子”的概率是 0.1)。
- ??結果??:最終,3D 網格的??每個面片都被賦予了一個語義標簽??。于是,你得到的不再是一個灰色的網格,而是一個帶有顏色的網格,其中顏色代表了語義類別(例如,墻壁是藍色的,地板是綠色的)。
層次三:實例層——區分不同物體
- ??目標??:不僅知道“這是一把椅子”,還要知道“這是三把不同的椅子”。
- ??實現??:通過幾何分割算法(如連接組件分析)將屬于同一語義類別且空間上相連的面片分組,形成不同的物體實例。例如,將四堵墻和一塊地板分組為一個“房間”實例。
層次四:場景圖層——描述實體關系(高級抽象)
- ??目標??:描述實例之間的高層關系,支持符號推理。
- ??實現??:構建一個??場景圖??。
- ??節點??:代表度量-語義地圖中的實體(如“房間101”、“桌子1”、“門_2”)。
- ??邊??:代表實體之間的關系(如
桌子_1??位于??房間_101內;門_2??連接??房間_101和走廊)。
三、Kimera 的工作流程
- ??輸入??:單目/立體相機圖像流 + IMU 數據。
- ??VIO 里程計??:Kimera-VIO 實時計算高頻、精確的相機位姿。
- ??網格重建??:Kimera-Mesher 利用位姿和圖像,增量式地構建和優化 3D 網格。
- ??語義融合??:并行地,Kimera-Semantics 將 2D 圖像的語義分割結果融合到 3D 語義體中,并將最終的語義標簽投射到網格上。
- ??輸出??:實時生成一個??輕量度的、帶語義標簽的 3D 網格??。后處理步驟可以進一步生成實例信息和場景圖。





浙公網安備 33010602011771號