수학/딥러닝 이론

분야별 Vision Transformer 논문 정리

AI 꿈나무 2021. 8. 5. 14:33
반응형

 나중에 읽으려고 정리한 논문들입니다. ㅎㅎ 필요하신 분이 계실수도 있으니 공유합니다.

 댓글로 vision transformer 논문 추천해주셔도 됩니다 ㅎㅎ

 

 Transformer가 서로 다른 데이터 사이에도 적용할 수 있고 데이터 종류에 따라 구조를 변경하지 않아도 되는 장점을 활용한 여러 분야에서 논문들

DPN, depth estimation, https://arxiv.org/abs/2103.13413

Point Transformation, Point cloud https://arxiv.org/abs/2012.09164

Perceiver, audio, video, point clouds, image, https://arxiv.org/abs/2103.03206

UniT, Multimodal, https://arxiv.org/abs/2102.10772

Transducer, speech https://arxiv.org/abs/2002.02562

ViLT, Vision & Language https://arxiv.org/abs/2102.03334

VATT, Multimodal https://arxiv.org/abs/2104.11178

VL-T5 Multimodel https://arxiv.org/abs/2102.02779

 

 

ViT가 CNN보다 object shape를 보고 판별한다는 연구와 Transformer내에 self-attention이 필수적인 요소가 아니라는 논문 

ViT가 object의 shape를 보고 판단, CNN은 texture https://arxiv.org/abs/2105.07197

ViT의 robustness 연구 https://arxiv.org/abs/2103.14586

ViT에서 self attention는 필수적인 요소가 아니다 https://arxiv.org/abs/2105.08050

FNet, 학습가능한 파라미터가 없는 Fourier transform으로 self attention을 대체 https://arxiv.org/abs/2105.03824

 

 

ViT는 많은 양의 데이터가 필요한데, CNN을 사용하여 데이터 양을 감소하려는 시도

DeiT,  https://arxiv.org/abs/2012.12877

 

 

self-attention의 연산량이 높아 high resolution image를 처리하기가 어려운데 이를 CNN으로 해결하려는 시도

PVT, 계층적인 구조를 사용 https://arxiv.org/abs/2102.12122

SwinTransformer, 계층적인 구조와 patch size를 줄이고 더 detail한 정보를 얻기 위하여 수용영역을 점점 좁혀나감, https://arxiv.org/abs/2103.14030

 

그외에

T2T, https://arxiv.org/abs/2101.11986

CvT, https://arxiv.org/abs/2103.15808

Ceit, https://arxiv.org/abs/2103.11816

 

반응형