CMT: Convolutional Neural Networks Meet Vision Transformers PDF, Vision Transformer, Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing, Yunhe Wang, arXiv 2021 Summary CMT는 ViT에 CNN 구조를 추가하여 성능을 개선한 모델입니다. long-dependency 정보를 포착하는데 특화되어 있는 ViT와 local feature을 modeling 하는데에 장점이 있는 CNN 구조를 결합하면 더 좋은 성능을 보여줄 수 있다는 것을 보여줍니다. 현재 ViT를 scaling up하여 SOTA 성능을 기록하고 있는 ViT-G를 제외하고, CMT는 동일한 파라미터..