논문 읽기/Zero shot

[논문 읽기] SPNet(2020), Semantic Projection Network for Zero- and Few-Label Semantic Segmentation

AI 꿈나무 2021. 10. 10. 20:16
반응형

SPNet, Semantic Projection Network for Zero- and Few-Label Semantic Segmentation

 PDFZero-Shot Semantic Segmentation, Yongqin et al, CVPR 2020

 

Summary

 embedding based zero-shot semantic segmentation 모델입니다.

 

 

 

 SPNet은 두 가지로 구성되어 있습니다.

 

(1) Visual-semantic embedding module

 이미지를 입력 받아 segmentation model에 전달하여 a x b x d_w 의 피쳐맵을 생성합니다. d_w는 werd embedding의 차원과 동일합니다.

 

(2) Semantic Projection

 (1)이 생성한 feature map과 word embedding 사이의 similarity를 계산하여 class를 예측합니다.

 

 

 

 

 training시에 seen image로만 학습이 진행되므로 seen class에 bias가 형성됩니다. 이를 완화하기 위하여 inference시에 calibration factor를 추가합니다. 이 calibration factor는 seen class에 대한 확률을 감소시킵니다.

 

 

 Loss는 cross entropy를 사용합니다.

 

 

 

Experiment

 논문에서 사용하는 data set 정보

 

 word embedding은 fastText와 word2vec을 concat 한것이 성능이 가장 좋습니다.

 

 

 


my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

 

반응형