Zero-Shot Instance Segmentation
PDF, Zero-Shot Segmentation, Ye et al, CVPR 2021
Summary
해당 논문은 zero shot instance segmentation task를 제안하는 논문이다. zero shot instance segmentation(ZSI)의 베이스 라인을 제공하고 논문에서 제안하는 방법이 zero shot object detection(ZSD)에서 SOTA 성능을 달성한다.
5가지 구성요소가 존재한다. (1) backbone, (2) BA-RPN, (3) Sync-bg, (4) zero-shot detector, (5) semantic mask head
zero-shot detection
RoI Align을 거쳐서 visual feature를 얻는다. 이 visual feature에 encoder를 적용해 semantic feature를 얻는다. 얻은 sematic feature와 word embedding 사이의 행렬곱 연산을 통하여 seen과 unseen에 대한 score를 얻는다. decoder도 사용되는데 이는 semantic feature에 적용하여 visual feature를 reconstruct 한다. 두 visual feature 사이의 reconstruction loss를 이용해 difference를 감소시킨다.
semantic mask head
zero-shot detection와 비슷하다. 재밌는 점은 Ws-Conv는 seen에 대한 word embedding을 weight로 사용한다.(Wu-Conv도 마찬가지)
BA-RPN, Sync-bg
백그라운드에 대한 워드 임베딩을 fix 값을 사용하는게 아니라 adaptive하게 사용한다. 이미지 내에서 백그라운드는 복잡하고 다양하기 때문에 고정된 값을 사용하면 문제점이 발생하기 떄문.
BA-RPN은 T(fc-layer)의 가중치를 백그라운드와 포어그라운드에 대한 weight를 사용한다. Bg와 fg를 구분하고 RoI로 전달해 주는것.
Sync-bg는 zero-shot detection와 semantic mask head에서 사용하는 백그라운드에 대한 weight를 동기화 시켜주는 역할을 한다.
loss
최종 loss는 다음과 같다.
my github