반응형

AI 56

[논문 리뷰] NeRF-SLAM: Real-Time Dense Monocular SLAMwith Neural Radiance Fields

IntroductionNeRF는 outlier에 취약하다는 문제가 있었다. 이를 해결하기 위해 depth 정보를 주고 동시에 depth estimator의 uncertainty 측정 기법을 활용하면 NeRF의 문제를 해결하면서 동시에 SLAM을 수행할 수 있다.최종적으로 NeRF와 uncertainty information을 동시에 활용하는 SLAM method를 제안한다.MethodologyTracking: Dense SLAM with Covariances이 부분은 설명이 좀 어려운 것 같다...큰 틀은 DROID-SLAM을 따른다. 이미지 두개를 받아서 optical flow를 만들고, 그 optical flow를 기반으로 depth를 추정한다. 그리고 이 과정에서 local BA (Bundle Ad..

AI/Paper Review 2024.04.27

[논문 리뷰] DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras

Introduction기존 방법은 EKF나 optimization based method로 나뉜다. 여기서 optimization의 핵심은 full Bundle Adjustment (BA)이다. 이는 camera pose와 3D map을 동시에 최적화한다.이런 optimization 방법은 여러 종류의 센서를 활용하기에 적합하다는 것이다.For example, ORB-SLAM3 [5] supports monocular, stereo, RGB-D, and IMU sensors, and modern systems can support a variety of camera models [5, 27, 43, 6].하지만 여전히 feature tracking을 실패하거나, drift error를 완전히 해결하지 못..

AI/Paper Review 2024.04.26

[PaperReview] Seeing Through Fog Without Seeing Fog: Deep Multimodal Sensor Fusion in Unseen Adverse Weather

Seeing Through Fog Without Seeing Fog: Deep Multimodal Sensor Fusion in Unseen Adverse Weather Introduction & Related Works The fusion of multimodal sensor streams, such as camera, lidar, and radar measurements, plays a critical role in object detection for autonomous vehicles, which base their decision making on these inputs. While existing methods exploit redundant information in good environm..

AI/Paper Review 2024.03.31

[PaperReview] CycleGAN: Unpaired Image-to-Image Translationusing Cycle-Consistent Adversarial Networks

CycleGAN: Unpaired Image-to-Image Translationusing Cycle-Consistent Adversarial Networks Introduction & Related Works Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs. Image-to-image translation은 말 그대로 pair image 간의 transformation function을 만드는 task이다..

AI/Paper Review 2024.03.31

[PaperReview] PatchmatchNet: Learned Multi-View Patchmatch Stereo

PatchmatchNet: Learned Multi-View Patchmatch Stereo Introduction Multiview stereo 방법론 중 Patchmatch를 더 빠른 속도로 수행하기 위한 방법이다. occlusion, illumination changes, untextured areas, non-Lambertian surfaces등에 의해 난이도가 높은 문제이다. 현재의 방법들은 대체로 3D cost volume을 만들고, 이를 3D convolution으로 해결하려고 한다. 기존 방법 : R-MVSNet [43] decouples the memory requirements from the depth range and sequentially processes the cost volu..

AI/Paper Review 2024.03.30

[PaperReview] UniSeg: A Unified Multi-Modal LiDAR Segmentation Networkand the OpenPCSeg Codebase

UniSeg: A Unified Multi-Modal LiDAR Segmentation Networkand the OpenPCSeg Codebase Introduction 색이나 texture 표현이 부족한 point cloud data를 위해서 RGB 이미지를 기용하고자 함 Sensor fusion을 위해 Learnable cross-Modal Association (LMA) module, Learnable cross-View Association module (LVA)을 제안 Pointcloud processing은 크게 세가지 형식으로 나뉜다. Point-view : pointcloud를 그대로 사용. 하지만 느린 연산과 neighboring point의 data를 잘 활용하지는 못하게 된다. Vo..

AI/Paper Review 2024.03.30

[Paper Review] GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models

GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models Introduction 기존 discriminative model의 문제 dicision boundary 중심으로만 학습된다. underlying data distribution은 무시된다. 한 class에 하나의 weight vector만 학습된다. OOD 만나면 빠르게 acc가 떨어진다. 이를 해결하기 위해서 generative model을 통해 p(x,c)를 예측하고, bayes rule을 통해서 p(c|x)를 추론한다. 이 과정에서 다음과 같은 장점이 있다. feature space에서 discriminative representation learning이 가능 multi..

AI/Paper Review 2023.12.22

[Paper Review] Transformer Interpretability Beyond Attention Visualization

Transformer Interpretability Beyond Attention Visualization openaccess.thecvf.com/content/CVPR2021/papers/Chefer_Transformer_Interpretability_Beyond_Attention_Visualization_CVPR_2021_paper.pdf Deep Taylor Decomposition Supposed Problem Transformer에 대한 explaining method가 많이 없다. Attention rollout이나 GradCAM 등이 있지만, Attention rollout은 class agnostic하다는 문제가 있고, GradCAM은 무관한 영역을 지정한다는 것을 지적한다. 그 외에 다른..

AI/Paper Review 2023.12.19

[Paper Review] 3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds

3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds openaccess.thecvf.com/content/CVPR2023/papers/Xiao_3D_Semantic_Segmentation_in_the_Wild_Learning_Generalized_Models_for_CVPR_2023_paper.pdf Dataset : The SemanticSTF Dataset bounding box만 있던 LiDAR dataset이던 STF를 활용해서, SemanticSTF를 제안한다. 실제로 촬영해서 구한 dataset이고, 본 논문에서는 point annotation만 추가한 것이다. An..

AI/Paper Review 2023.12.19

[Paper Review] Deep Learning-based Action Detection in Untrimmed Videos: A Survey

Introduction Temporal Action Detection은 특정한 Action의 시작과 끝을 찾는 task를 의미 Action이 종료되기 직전과 직후는 상당히 유사해서, end time을 선언하기 어려움 Action이 언제든 발생할 수 있어서, 영상 자체에서 action이 비중이 낮아서 예측이 어려움 아래 설명은 Fully Supervised Learning 기준으로 설명 Terminology Annotation = class label과 start time, end time Temporal Proposal = model에서 제안하는 class label과 start time, end time Temporal IoU = tIoU = predicted interval $I_p$와 Ground ..

AI/Paper Review 2023.12.11
반응형