Zero-Shot Semantic Segmentation
PDF, Zero shot semantic segmentation, Xizhou Zhu, Weije Su, Lewei Lu, Xiaogang Wang, Jifeng Dai, arXiv 2019
Summary
요즘 부쩍 zero shot에 대해 관심이 많아졌다. CLIP을 읽고 Zero-shot에 대한 강한 흥미가 생겼는데, segmentation에서는 zero shot을 어떻게 적용하는지 궁금해서 읽어보았다.
우선 좀 복잡한것 같다. unlabeled segmentation dataset이 없어서 labeled dataset에서 몇 개의 label을 제외하고 학습을 진행하는 것 같다. supervision segmentation 모델로 feature prediction을 추출한 뒤에 generator 모델로 unseen에 대한 feature를 생성하는거 같은데... 이해가 잘 안된다. 배경 지식이 아직 많이 부족.
generator 모델은 GMMN(generative moment matching network)를 사용하는데 15년에 나온 모델이다. 최신 모델을 사용하면 성능이 더 향상될 거 같은데 왜 예전 모델을 사용하는 걸까? 혹시나 해서 zero shot segmentation 최신 논문도 찾아봤는데 GMMN을 사용한다.. 왜?
unseen class과 seen class 대한 word embedding 정보를 활용해서 GCN에 전달해 graph-context encoding을 생성하여 generator로 전달한다. spatial relation 정보를 generator에 주입하여 unseen feature를 더 잘 생성하는거 같은데.. 공부를 더 해봐야 겠다.
my github