Bottleneck Transformers for Visual Recognition Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pierer Abbeel, Ashish Vaswani, arXiv 2021 PDF, Classifiction By SeonghoonYu August 10th, 2021 Summary ResNet의 마지막 stage의 BottleNeck 구조에서 3x3 Conv를 Multi-Head Attention으로 대채합니다. Multi-Head Attention은 down-sampling 기능이 없으므로 stage 앞에 2x2 average pooling with stride 2를 사용하여 down sampling을 수행합..