반응형
Decoupling Zero-Shot Semantic Segmentation
https://arxiv.org/abs/2112.07910
MaskFormer와 CLIP을 결합한 zero shot semantic segmentation 논문.
MaskFormer의 mask prediction task 덕분에 pixel-wise하게 word vector를 매칭시키는 것이 아니라 mask-wise 하게 word vector를 매칭시킨다.
CLIP보다는 MaskFormer 덕분에 성능이 잘 나왔다고 볼 수 있을듯
prediction 시 seen bias를 줄이기 위해 calibration method를 사용한다.
이와 비슷한 논문인 A simple baseline for zero-shot semantic segmentation은 freeze한 것과 fine-tuning 한 것을 앙상블 한다.
반응형