논문 읽기/weakly

[논문 읽기] Zoom-CAM, Generating Fine-grained Pixel Annotations from Image Labels(2020)

AI 꿈나무 2022. 2. 22. 19:01
반응형

https://arxiv.org/abs/2010.08644

 

Zoom-CAM: Generating Fine-grained Pixel Annotations from Image Labels

Current weakly supervised object localization and segmentation rely on class-discriminative visualization techniques to generate pseudo-labels for pixel-level training. Such visualization methods, including class activation mapping (CAM) and Grad-CAM, use

arxiv.org

 

Zoom-CAM, Generating Fine-grained Pixel Annotations from Image Labels

 

 

 grad-cam과 cam은 conv의 마지막 feature map만을 활용하여 activation map을 생성했다.

 

 Zoom-CAM은 마지막 feature map 뿐만 아니라 그 이전 feature map까지 활용하여 fine-grained activation map을 추출한다.

 

 

 기존의 grad-cam은 gradient 값을 활용하여 weight(scalar)를 계산했었다. 하지만 Zoom-CAM은 conv의 weight 정보를 활용하여 중간 feature map에 대한 weight matrix를 활용한다.

 

 

 B가 intermediate feature map을 의미하고 W는 B feature map에 conv 연산이 적용되는 weight matrix 이다. m'와 n'는 ReLU 연산이 positive 값만 통과시키므로 B feature map에서 positive value를 갖고 있는 인덱스를 나타낸다. 이렇게 map을 뽑아내면 각 feature map을 활용할 수 있다. 단순히 grad-cam으로 intermidiate feature map을 활용하는 것은 성능이 잘 안나온다.

 

 

 U는 upsample, N은 normalize를 의미한다. max 연산을 통해 max value만을 추출하여 activation map 생성.

 

 

 

 

 

 

 

 

 

반응형