MaskFormer 형식으로 mask를 제안하고 mask와 class representation의 similarity를 매칭해 학습시킨다. fixed category가 아닌 open vocabulary로 열음 maskformer와는 다르게 no object를 구분하지 않고, word와 매칭되지 않는 mask를 냅둔다. 이 mask는 unseen object를 예측했다고 가정하여 class에 속하지 않는 object도 segment 할 수 있도록 함