반응형
SPNet, Semantic Projection Network for Zero- and Few-Label Semantic Segmentation
PDF, Zero-Shot Semantic Segmentation, Yongqin et al, CVPR 2020
Summary
embedding based zero-shot semantic segmentation 모델입니다.
SPNet은 두 가지로 구성되어 있습니다.
(1) Visual-semantic embedding module
이미지를 입력 받아 segmentation model에 전달하여 a x b x d_w 의 피쳐맵을 생성합니다. d_w는 werd embedding의 차원과 동일합니다.
(2) Semantic Projection
(1)이 생성한 feature map과 word embedding 사이의 similarity를 계산하여 class를 예측합니다.
training시에 seen image로만 학습이 진행되므로 seen class에 bias가 형성됩니다. 이를 완화하기 위하여 inference시에 calibration factor를 추가합니다. 이 calibration factor는 seen class에 대한 확률을 감소시킵니다.
Loss는 cross entropy를 사용합니다.
Experiment
논문에서 사용하는 data set 정보
word embedding은 fastText와 word2vec을 concat 한것이 성능이 가장 좋습니다.
my github
반응형