반응형

논문 읽기 255

Self-supervised Learning에 대하여

심심해서 적어보는 글. Self-supervised learning은 데이터가 부족한 환경에서 사용하는 것이 아니라, 데이터는 많은데 annotation이 없는 경우에 사용하는 것이다. unlabeled data 로부터 어떻게 pretask를 만들어서 효율적인 representation을 뽑아내느냐가 중요하며, 작년 까지 핫했던 SSL 모델들(DINO, MoCO, SimCL?)은 unlabeled data에 aumentation에 강하게 줘서 contrastive learning으로 augmentation에 불변한 representation을 뽑아내는 방향으로 발전해왔다. 22년 SSL 논문은 안읽어봐서 모르겠는데 현재도 비슷한 방향으로 연구가 진행되고 있지 않을까 싶다. 또한 SSL방법론이 성능을 내기..

[논문 읽기] Open-World Entity Segmentation(2021)

Open-World Entity Segmentation https://arxiv.org/abs/2107.14228 Open-World Entity Segmentation We introduce a new image segmentation task, called Entity Segmentation (ES), which aims to segment all visual entities (objects and stuffs) in an image without predicting their semantic labels. By removing the need of class label prediction, the models tra arxiv.org class agnostic 하게 segmentation 하는 모델..

[논문 읽기] CondInst(2020), Conditional Convolutions for Instance Segmentation

Conditional Convolutions for Instance Segmentation https://arxiv.org/abs/2003.05664 Conditional Convolutions for Instance Segmentation We propose a simple yet effective instance segmentation framework, termed CondInst (conditional convolutions for instance segmentation). Top-performing instance segmentation methods such as Mask R-CNN rely on ROI operations (typically ROIPool or ROIAlign) arxiv.o..

[논문 읽기] CaSP, Class agnostic Semi-Supervised Pretraining for Detection and Segmentation

CaSP, Class agnostic Semi-Supervised Pretraining for Detection and Segmentation https://arxiv.org/abs/2112.04966 CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and Segmentation To improve instance-level detection/segmentation performance, existing self-supervised and semi-supervised methods extract either very task-unrelated or very task-specific training signals from unlabeled d..

[논문 읽기] GETAM(2021), Gradient-weighted Element-wise Transformer Attention Map for Weakly supervised Semantic Segmentation

GETAM, Gradient-weighted Element-wise Transformer Attention Map for Weakly supervised Semantic Segmentation https://arxiv.org/abs/2112.02841 GETAM: Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation Weakly Supervised Semantic Segmentation (WSSS) is challenging, particularly when image-level labels are used to supervise pixel level prediction. To ..

[논문 읽기] DETIC, Detecting Twenty thousand Classes using Image-lebel Supervision(2022)

DETIC, Detecting Twenty thousand Classes using Image-label Supervision https://arxiv.org/abs/2201.02605 Detecting Twenty-thousand Classes using Image-level Supervision Current object detectors are limited in vocabulary size due to the small scale of detection datasets. Image classifiers, on the other hand, reason about much larger vocabularies, as their datasets are larger and easier to collect...

[논문 읽기] Zoom-CAM, Generating Fine-grained Pixel Annotations from Image Labels(2020)

https://arxiv.org/abs/2010.08644 Zoom-CAM: Generating Fine-grained Pixel Annotations from Image Labels Current weakly supervised object localization and segmentation rely on class-discriminative visualization techniques to generate pseudo-labels for pixel-level training. Such visualization methods, including class activation mapping (CAM) and Grad-CAM, use arxiv.org Zoom-CAM, Generating Fine-gra..

[논문 읽기] Grad-CAM, Visual Explanations from Deep Networks via Gradient-based Localization

Grad-CAM, Visual Explanations from Deep Networks via Gradient-based Localization feature map에 가해주는 weight를 계산하는 방법이 CAM과 다르다. CAM은 global average pooling을 적용해 얻은 값에 softmax를 취해 가중치를 얻고, conv 마지막 layer 피쳐맵에 곱해 activation map을 얻었었다. Grad-CAM은 gradients의 값을 활용하여 weight를 계산한다. 카테고리가 주어지면 backpropagation을 통해 feature map에 가해지는 gradient가 높다면 해당 카테고리에 높은 영향력을 미친다는 가정인듯? 계산한 weight와 feture map을 곱한 뒤에 ReL..

[논문 읽기] Class Activation Map(CAM), Learning Deep Features for Discriminative Localization

Class Activation Map(CAM), Learning Deep Features for Discriminative Localization https://arxiv.org/abs/1512.04150 마지막 Conv layer의 출력값을 Fully-connected layer로 전달하려 예측을 수행한다. 이 conv의 마지막 출력값에 모델이 카테고리를 예측하는 데에 영향력이 높은 region 정보를 갖고 있다는 가정하에 이를 활용한다. 마지막 conv 출력값의 각 채널은 서로 다른 visual pattern 정보를 갖고 있다. 이 각 채널에 class에 영향력을 갖는 정도를 나타내는 weight를 가하고 더해서 class activation map을 만든다. w는 feature map에 GAP 적용..

[논문 읽기] PseudoSeg, Designing Pseudo Labels for Semantic Segmentation(2020)

PseudoSeg, Designing Pseudo Labels for Semantic Segmentation(2020) semi segmentation 논문. pixel label이 존재하면, 이미지에 weak augmentation을 준 뒤 모델로 전달하여 얻은 prediction과 gt사이의 cross entropy loss를 계산. unlabeled image에 대해서는 strong augmentation을 가한뒤에 얻은 prediction과 pseudo label 사이의 cross entropy를 계산한다. 그러면 pseudo label을 어떻게 얻을까? grad-CAM과 decode의 출력값을 활용한다. grad-CAM은 prediction에 높은 영향력이 있는 region을 검출하는데, 이는 ..

반응형