AI/Paper Review

[PaperReview] UniSeg: A Unified Multi-Modal LiDAR Segmentation Networkand the OpenPCSeg Codebase

CVMaster 2024. 3. 30. 01:38
반응형

UniSeg: A Unified Multi-Modal LiDAR Segmentation Networkand the OpenPCSeg Codebase

Introduction

  • 색이나 texture 표현이 부족한 point cloud data를 위해서 RGB 이미지를 기용하고자 함
  • Sensor fusion을 위해 Learnable cross-Modal Association (LMA) module, Learnable cross-View Association module (LVA)을 제안
  • Pointcloud processing은 크게 세가지 형식으로 나뉜다.
    • Point-view : pointcloud를 그대로 사용. 하지만 느린 연산과 neighboring point의 data를 잘 활용하지는 못하게 된다.
    • Voxel-view : voxelization/rasterization을 활용. 하지만 voxelizing data loss가 존재.
    • Range-view : 아예 pointcloud로 2D image를 만들어버린다. 심각한 data loss.

Codebase

Methods

  • 전체 흐름은 다음과 같다. 각 view와 data에 따른 encoder를 놓고 그로부터 나온 feature를 조율하는 방식
    • 이런 거라면 그냥 아예 pretrained encoder들로 운용하고 finetune만 한다음에 사용하는게 좋을 듯???

  • the LMA module은 the voxel-image fusion & range-image fusion을 위해 존재
  • the LVA module은 range-point-voxel fusion을 위해 존재
  • Learnable Cross-Modal Association
    • Point - Image correspondence는 다음과 같이 camera callibration matrix로 수행한다.
      • 이렇게 하면 range image로 다른 point들 버리는 것 보다는 나을 거 같다. 물론 그래도 중복되는 data들은 항상 나오겠지만
    • Voxel-Image correspondence는 voxel 중심에 대해서 왼쪽에서와 같이 image projection을 해서 image pixel offset을 구하고, 우측 식과 같이 image feature와 voxel feature를 fusion한다.
    • 아래의 왼쪽 그림과 같이 Query로 voxel feature를 넣고 Key, value로 image feature를 넣어서 multihead attention을 수행한다.

  • Learnable Cross-View Association
    • voxel2point, range2point : point보다 voxel과 range가 개수가 적으므로, trilinear/billinear interpolation을 통해서 대응되지 않는 point를 매꾼다.
    • 그렇게 concatenate을 한 후, 이후에는 아래 식으로 fusion을 한다. 그리고 point feature를 통해서 residual sum을 한다.
    • 마지막에는 point2voxel, point2range를 한다.

  • 이후 semantic segmentation을 하고, 그 prediction을 활용해서 다시 panoptic segmentation을 한다.
  • loss는 다음과 같이 정한다.

Experiments

다른 Sensor fusion method나 일반 pointcloud method보다 더 좋은 성능을 보인다는 것을 알 수 있다.

Panoptic segmentation도 더 잘한다.

Pruning을 한 결과도 no fusion method보다 나은 것을 볼 수 있다. 그리고 다른 sensor fusion method보다 더 나은 결과를 보이는 것을 알 수 있다. 놀랍게도 0.2배로 channel을 pruning한 것을 사용해도 다른 fusion method보다 좋았다고 한다.

Unimodal보다 multimodal의 성능이 더 좋다는 것을 보였다.

다음은 Qualitative results

 

 

 

 

반응형