나중에 읽으려고 정리한 논문들입니다. ㅎㅎ 필요하신 분이 계실수도 있으니 공유합니다.
댓글로 vision transformer 논문 추천해주셔도 됩니다 ㅎㅎ
Transformer가 서로 다른 데이터 사이에도 적용할 수 있고 데이터 종류에 따라 구조를 변경하지 않아도 되는 장점을 활용한 여러 분야에서 논문들
DPN, depth estimation, https://arxiv.org/abs/2103.13413
Point Transformation, Point cloud https://arxiv.org/abs/2012.09164
Perceiver, audio, video, point clouds, image, https://arxiv.org/abs/2103.03206
UniT, Multimodal, https://arxiv.org/abs/2102.10772
Transducer, speech https://arxiv.org/abs/2002.02562
ViLT, Vision & Language https://arxiv.org/abs/2102.03334
VATT, Multimodal https://arxiv.org/abs/2104.11178
VL-T5 Multimodel https://arxiv.org/abs/2102.02779
ViT가 CNN보다 object shape를 보고 판별한다는 연구와 Transformer내에 self-attention이 필수적인 요소가 아니라는 논문
ViT가 object의 shape를 보고 판단, CNN은 texture https://arxiv.org/abs/2105.07197
ViT의 robustness 연구 https://arxiv.org/abs/2103.14586
ViT에서 self attention는 필수적인 요소가 아니다 https://arxiv.org/abs/2105.08050
FNet, 학습가능한 파라미터가 없는 Fourier transform으로 self attention을 대체 https://arxiv.org/abs/2105.03824
ViT는 많은 양의 데이터가 필요한데, CNN을 사용하여 데이터 양을 감소하려는 시도
DeiT, https://arxiv.org/abs/2012.12877
self-attention의 연산량이 높아 high resolution image를 처리하기가 어려운데 이를 CNN으로 해결하려는 시도
PVT, 계층적인 구조를 사용 https://arxiv.org/abs/2102.12122
SwinTransformer, 계층적인 구조와 patch size를 줄이고 더 detail한 정보를 얻기 위하여 수용영역을 점점 좁혀나감, https://arxiv.org/abs/2103.14030
그외에
T2T, https://arxiv.org/abs/2101.11986
CvT, https://arxiv.org/abs/2103.15808
Ceit, https://arxiv.org/abs/2103.11816
'수학 > 딥러닝 이론' 카테고리의 다른 글
왜 Vision Transformer가 좋은 성능을 보일까요? (0) | 2021.08.05 |
---|---|
트랜스포머 정리 (0) | 2021.07.23 |
[딥러닝] Computer Vision과 NLP에서의 attention 함께 살펴보기 (0) | 2021.06.24 |
[딥러닝] Batch Norm 관점에서 살펴보는 batch size 가이드 라인 (0) | 2021.05.28 |
[딥러닝] 세 가지 유명 신경망 - VGG, GoogLeNet, ResNet (0) | 2020.10.09 |