https://arxiv.org/abs/2010.08644
Zoom-CAM, Generating Fine-grained Pixel Annotations from Image Labels
grad-cam과 cam은 conv의 마지막 feature map만을 활용하여 activation map을 생성했다.
Zoom-CAM은 마지막 feature map 뿐만 아니라 그 이전 feature map까지 활용하여 fine-grained activation map을 추출한다.
기존의 grad-cam은 gradient 값을 활용하여 weight(scalar)를 계산했었다. 하지만 Zoom-CAM은 conv의 weight 정보를 활용하여 중간 feature map에 대한 weight matrix를 활용한다.
B가 intermediate feature map을 의미하고 W는 B feature map에 conv 연산이 적용되는 weight matrix 이다. m'와 n'는 ReLU 연산이 positive 값만 통과시키므로 B feature map에서 positive value를 갖고 있는 인덱스를 나타낸다. 이렇게 map을 뽑아내면 각 feature map을 활용할 수 있다. 단순히 grad-cam으로 intermidiate feature map을 활용하는 것은 성능이 잘 안나온다.
U는 upsample, N은 normalize를 의미한다. max 연산을 통해 max value만을 추출하여 activation map 생성.