Efficient Self-supervised Vision Transformers for Representation Learning PDF, SSL, Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao, arXiv 2021 Summary ViT에 SSL을 적용하는 논문입니다. 논문에서는 multi-stage architecture를 사용합니다. multi-stage architecture를 사용하면 (1) 연산량 감소, (2) 계층 구조를 사용할 수 있습니다. multi-stage architecture를 사용하기 위해 patch merging을 사용하는데, 이미지를 더 큰 패치로 짤..