Language-Driven Semantic Segmentation PDF, Zero-Shot Segmentation, Anonymous, ICLR 2022 open review Summary CLIP을 segmentation에 적용한 페이퍼이다. Inference시에 label를 flexible하게 넣어줄 수 있다. 즉, 이미지에서 원하는 객체만 찾을 수 있다는 말. class를 dog와 other만 넣어주면 나머지는 other로 분류한다. Text encoder은 pre-trained CLIP을 freezing하여 사용한다. image encoder은 DPT를 사용하는데 DPT는 pretrained ViT를 encoder로 사용하고 decoder DPT를 random 초기화하여 학습시킨다. text ..