반응형

Vision Transformer 11

[논문 읽기] CMT(2021), Convolutional Neural Networks Meet Vision Transformers

CMT: Convolutional Neural Networks Meet Vision Transformers PDF, Vision Transformer, Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing, Yunhe Wang, arXiv 2021 Summary CMT는 ViT에 CNN 구조를 추가하여 성능을 개선한 모델입니다. long-dependency 정보를 포착하는데 특화되어 있는 ViT와 local feature을 modeling 하는데에 장점이 있는 CNN 구조를 결합하면 더 좋은 성능을 보여줄 수 있다는 것을 보여줍니다. 현재 ViT를 scaling up하여 SOTA 성능을 기록하고 있는 ViT-G를 제외하고, CMT는 동일한 파라미터..

[논문 읽기] Delving Deep into the Generalization of Vision Transformers under Distribution Shifts(2021)

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts Chongzhi Zhang, Mingyuan Zhang, Shuanghang Zhang, arXiv 2021 PDF, Vision Transformer By SeonghoonYu July 15th, 2021 Summary 현실 세계 데이터는 ImageNet과 같이 잘 정제된 데이터가 아닌 Out-of-distribution data인 경우가 많습니다. 논문 저자는 ViT가 OOD에서의 generalization 능력을 CNN 모델과 비교하여 연구합니다. 결론먼저 말하면 (1) ViT가 CNN보다 OOD data에 generalization 능력이 뛰어납..

카테고리 없음 2021.08.12

[논문 읽기] Early Convolutions Help Transformers See Better(2021)

Early Convolutions Help Transformers See Better Tate Xiao, Mannat Singh, Eric Mintum, Trevor Darrell, Piotr Dollar, Ross Girschick, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 9th, 2021 Summary ViT는 Optimization에 민감합니다. 느린 수렴속도, Optimizer SGD를 사용하면 수렴이 안되고 lr 또는 weight decay 계수에도 민감합니다. 또한 ImageNet 에서 CNN의 성능을 뛰어넘지 못합니다. 저자는 ViT가 Optimization에 민감한 이유가 ViT의 초기 image를 patch 단위로 자를 때 사..

[논문 읽기] CvT(2021), Introducing Convolutions to Vision Transformers

CvT: Introducing Convolutions to Vision Trnasformers Haiping Wu, Bin Xiao, Noel Codella, Mencgen Liu, Xiyang Dai Lu, Yuan Lei Zhang, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 8th, 2021 Summary CvT는 기존 CNN 구조에서 활용하는 계증 구조(hierarchical architecture)를 ViT에 적용한 논문입니다. 계층 구조를 형성할 수 있다면 low-layer에는 edge와 같은 low-level feature를 학습하고 높은 layer에서는 high-level feature을 학습할 것입니다. Vision Transfo..

[Paper Review] CeiT(2021), Incorporating Convolution Designs into Visual Transformers

Incorporating Convolution Designs into Visual Transformers Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou Fengwei Yu, Wei Wu, arXiv 2021 PDF, Transformer By SeonghoonYu August 5th, 2021 Summary CeiT is architecture that combines the advantages of CNNs in extracting low-level features, strengthening locality, and the advantages of Transformers in establishing long-range dependencies. ViT has two p..

분야별 Vision Transformer 논문 정리

나중에 읽으려고 정리한 논문들입니다. ㅎㅎ 필요하신 분이 계실수도 있으니 공유합니다. 댓글로 vision transformer 논문 추천해주셔도 됩니다 ㅎㅎ Transformer가 서로 다른 데이터 사이에도 적용할 수 있고 데이터 종류에 따라 구조를 변경하지 않아도 되는 장점을 활용한 여러 분야에서 논문들 DPN, depth estimation, https://arxiv.org/abs/2103.13413 Point Transformation, Point cloud https://arxiv.org/abs/2012.09164 Perceiver, audio, video, point clouds, image, https://arxiv.org/abs/2103.03206 UniT, Multimodal, https:..

왜 Vision Transformer가 좋은 성능을 보일까요?

https://towardsdatascience.com/recent-developments-and-views-on-computer-vision-x-transformer-ed32a2c72654 Recent Developments and Views on Computer Vision x Transformer On the differences between Transformer and CNN, why Transformer matters, and what its weaknesses are. towardsdatascience.com 위 게시글을 번역했습니다. Why is Vision Transformer so accurate? Vision Transformer의 연구는 오랫동안 지속되어 왔는데요. 하지만 아직 Im..

[논문 구현] ViT(2020) PyTorch 구현 및 학습

공부 목적으로 ViT를 구현하고 학습한 내용을 공유합니다 ㅎㅎ. 작업 환경은 Google Colab에서 진행했습니다. 필요한 라이브러리를 설치 및 임포트합니다. !pip install einops import torch import torch.nn as nn import torch.nn.functional as F import matplotlib.pyplot as plt %matplotlib inline from torch import optim from torchvision import datasets import torchvision.transforms as transforms from torch.utils.data import DataLoader import os from torchvision im..

논문 구현 2021.08.04

[논문 읽기] Centroid Transformer(2021)

Centroid Transformers: Learning to Abstract with Attention Lemeng Wu, Xingchao Liu, Qiang Liu, arXiv 2021 PDF, Transformer By SeonghoonYu August 02th, 2021 Summary 센트로이드 트랜스포머는 N개의 입력값을 M개의 요소로 요약합니다. 이 과정에서 필요없는 정보를 버리고 트랜스포머의 계산 복잡도를 O(MN)으로 감소합니다. M개의 요소는 Clustering의 centroid로 생각해 볼 수 있는데, 이 M개의 요소를 어떻게 선정하는 지가 핵심 아이디어로 생각해볼 수 있습니다. M개의 centroid를 선정하기 위해 입력값 x와 centroid 사이의 유사도를 측정하고 손실함수를 설계..

[논문 읽기] MoCov3(2021), An Empirical Study of Training Self-Supervised Vision Transformers

안녕하세요, 오늘 읽은 논문은 An Empirical Study of Training Self-Supervised Vision Transformers 입니다. 해당 논문은 MoCov1/2보다 좋은 성능을 갖는 MoCov3을 제안하고, 이 MoCov3을 Vision Transfermers(ViT)에 적용하는 실험을 합니다. CNN 구조에 SSL을 적용하는 많은 연구가 이루어져 있지만 ViT 모델에는 어떻게 self-supervised learning을 적용해야하는지에 대해 많은 연구가 이루어지지 않았습니다. 저자는 다양한 실험을 통해 self-supervised ViT의 효과를 조사합니다. 또한 기존 self-supervised transformer 보다 좋은 성능을 보여줍니다. 실험을 위해 batch s..

반응형