Emerging Properties in Self-Supervised Vision Transformers PDF, SSL, Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, Armand Joulin, arXiv 2021 Summary 위 영상은 DINO의 attention map을 보여줍니다. 정확히 객체에만 attention map이 활성화되어 있어 segmentation mask처럼 보입니다. 이처럼 SSL + ViT는 CNN이나 SL ViT에서 나타나지 않는 성질인 semantic segmentation에 대한 정보를 학습할 수 있다고 말합니다. 즉, classification model은 ..