논문 읽기/Classification

[논문 읽기] Conformer(2021), Local Features Coupling Global Representations for Visual Recognition

AI 꿈나무 2021. 9. 15. 21:46
반응형

Conformer: Local Features Coupling Global Representations for Visual Recognition

 PDFClassification TF, Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, ICCV 2021

 

Summary

 CNN은 local feature에 특화되어 있고 transformer는 global representation에 특화되어 있는데, 각각의 출력값을 Feature Coupling Unit(FCU)로 fuse 한다. 그러면 CNN에 global representation을 주입할 수 있고, transformer에 local feature을 주입할 수 있다.

 

 

 CNN은 local feature을 포착하는데, 여기에 Conformer로 transformer에서 추출한 global representation을 주입하면 CNN이 global하게 본다. 반대로 transformer에 CNN의 local feature을 주입하면 back-ground와 fore-ground를 discriminate하는 능력이 향상된다.

 

 

 feature을 전달하게 되면 misallignment를 조정해야하는데 이를 FCU로 함. transformer의 출력값은 upsampling후 채널을 수정하고 CNN의 출력값은 downsampling후 채널을 수정하여 feature을 서로 전달

 

 

 


my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

 

반응형