반응형
Conformer: Local Features Coupling Global Representations for Visual Recognition
PDF, Classification TF, Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, ICCV 2021
Summary
CNN은 local feature에 특화되어 있고 transformer는 global representation에 특화되어 있는데, 각각의 출력값을 Feature Coupling Unit(FCU)로 fuse 한다. 그러면 CNN에 global representation을 주입할 수 있고, transformer에 local feature을 주입할 수 있다.
CNN은 local feature을 포착하는데, 여기에 Conformer로 transformer에서 추출한 global representation을 주입하면 CNN이 global하게 본다. 반대로 transformer에 CNN의 local feature을 주입하면 back-ground와 fore-ground를 discriminate하는 능력이 향상된다.
feature을 전달하게 되면 misallignment를 조정해야하는데 이를 FCU로 함. transformer의 출력값은 upsampling후 채널을 수정하고 CNN의 출력값은 downsampling후 채널을 수정하여 feature을 서로 전달
my github
반응형
'논문 읽기 > Classification' 카테고리의 다른 글
Classification에서 MSE(mean square error) vs Cross-Entropy (2) | 2022.01.12 |
---|---|
[논문 읽기] CMT(2021), Convolutional Neural Networks Meet Vision Transformers (0) | 2021.08.16 |
[논문 읽기] Scaling Vision Transformers(2021) (0) | 2021.08.15 |
[논문 읽기] BoTNet(2021), Bottleneck Transformers for Visual Recognition (0) | 2021.08.10 |
[논문 읽기] Early Convolutions Help Transformers See Better(2021) (0) | 2021.08.09 |