반응형

전체 글 194

Implementation of Weights in 'Understanding Imbalanced Semantic Segmentation Through Neural Collapse' : 가중치 구현 해결!

'Understanding Imbalanced Semantic Segmentation Through Neural Collapse'의 code가 아직 공개되지 않아서, 구현을 시도하던 중, 다음 수식을 구현하는데에서 문제가 있었다. 다른 방정식을 통한 풀이가 있을까 싶어서 찾다가, 딱히 방법이 없다싶어서 다음과 같이 optimization problem으로 구성해서 해결을 시도했다. import torch import numpy as np def objective_function(W, num_classes=20): """ Define the objective function. The objective is to make the dot product of columns of W with themselves ..

[Paper Review] Transformer Interpretability Beyond Attention Visualization

Transformer Interpretability Beyond Attention Visualization openaccess.thecvf.com/content/CVPR2021/papers/Chefer_Transformer_Interpretability_Beyond_Attention_Visualization_CVPR_2021_paper.pdf Deep Taylor Decomposition Supposed Problem Transformer에 대한 explaining method가 많이 없다. Attention rollout이나 GradCAM 등이 있지만, Attention rollout은 class agnostic하다는 문제가 있고, GradCAM은 무관한 영역을 지정한다는 것을 지적한다. 그 외에 다른..

AI/Paper Review 2023.12.19

[Paper Review] 3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds

3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds openaccess.thecvf.com/content/CVPR2023/papers/Xiao_3D_Semantic_Segmentation_in_the_Wild_Learning_Generalized_Models_for_CVPR_2023_paper.pdf Dataset : The SemanticSTF Dataset bounding box만 있던 LiDAR dataset이던 STF를 활용해서, SemanticSTF를 제안한다. 실제로 촬영해서 구한 dataset이고, 본 논문에서는 point annotation만 추가한 것이다. An..

AI/Paper Review 2023.12.19

AI / Computer Vision 논문 찾는 방법 (개인적 생각)

석사 한학기가 지나가면사 터득한 '좋은 논문' 찾는 방법에 대해서 생각해봤다. 순서는 다음과 같다. 1. CVPR/ICCV/ECCV 20XX accepted paper 2. paper with codes 3. arxiv sanity 4. yanic kilcher discord 1. CVPR/ICCV/ECCV 20XX accepted paper 무조건 이 세 군데부터 들어가봐야한다. 이유는 1) accept 됐다는 것은 퀄리티가 어느정도 보장된다는 의미이며 2) 당신의 논문도 어셉되려면 다른 사람 논문의 좋은 점을 닮아야하니까. 그리고 가장 좋은 것은 기존의 또 다른 좋은 논문이 accepted paper 속의 비교 대상으로 되어있을 것이기에, reference를 따라서 해당 task line의 일대기를 ..

[Paper Review] Deep Learning-based Action Detection in Untrimmed Videos: A Survey

Introduction Temporal Action Detection은 특정한 Action의 시작과 끝을 찾는 task를 의미 Action이 종료되기 직전과 직후는 상당히 유사해서, end time을 선언하기 어려움 Action이 언제든 발생할 수 있어서, 영상 자체에서 action이 비중이 낮아서 예측이 어려움 아래 설명은 Fully Supervised Learning 기준으로 설명 Terminology Annotation = class label과 start time, end time Temporal Proposal = model에서 제안하는 class label과 start time, end time Temporal IoU = tIoU = predicted interval $I_p$와 Ground ..

AI/Paper Review 2023.12.11

[Paper Review] Robust Test-Time Adaptation in Dynamic Scenarios

1. PTTA라는 challenge 제안했다. corruption은 continual하게 등장해야하고, 동시에 그 sampling간의 correlation이 반영되어야한다는 task이다. 이러한 task에 맞는 RoTTA(Robust Test Time Adaptation)을 제안했다. 2. 위 그림에서 볼 수 있듯이, 제안하는 방법론 자체가 구성요소가 많다. novelty가 넘쳐나는 정도. 그 구성요소를 나열해보겠다. Robust statistics estimation by Robust Batch Normalization(RBM) 일반적인 batch norm과는 다르게 EMA를 통해서 test set의 feature statistics를 update하는 방식이다. Category balanced samp..

AI/Paper Review 2023.11.14

[Paper Review] Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles 리뷰

Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles 1. Proper scoring rule : uncertainty를 함내하는 적절한 loss function을 사용하라는 뜻이다. log-likelihood, softmax cross entropy, mean square error loss 등의 기존 NN에 사용하던 loss가 이러한 항목에 들어간다고 reference를 통해 언급한다. 2. Adverarial training을 통한 predictive distribution을 smooth하게 하는 것. Goodfellow et al. 에서 제안한 adversarial example을 생성해서 model robustnes..

AI/Paper Review 2023.11.14

[Paper Review] Robust Mean Teacher for Continual and Gradual Test-Time Adaptation 리뷰

1. 이미 학습된 모델이 out-of-distribution data를 만났을때, domain gap을 줄이기 위해 test-time adaptation(TTA)을 한다. 특히 Mean Teacher를 자주 사용한다. 2. Symmetric Cross Entropy loss가 Cross Entropy loss보다 더 나은 graident를 만들어낸다. 다음은 CE의 수식과 그 gradient. teacher- student model을 쓴다고 가정할 때, reversed cross entropy loss를 보면, student model prediction p에 상관없이 teacher model prediction q가 one-hot이면 최대, uniform이면 최소가 되는 모습을 보여준다. 이는 L_r..

AI/Paper Review 2023.11.13

[Paper Review] CLIP^2: Contrastive Language-Image-Point Pretraining from Real-

CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [2303.12417] CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data (arxiv.org) CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud DataContrastive Language-Image Pre-training, benefiting from large-scale unlabeled text-image pairs, has demonstra..

AI/Paper Review 2023.09.05
반응형