반응형

vit 8

[논문 읽기] LiT, Zero-Shot Transfer with Locked-image Text Tuning(2021)

LiT: Zero-Shot Transfer with Locked-image Text Tuning PDF, Zero-Shot Transfer, Zhai et al, arXiv 2021 Summary Transfer Learning과 Zero-Shot Transfer 의 차이점 먼저 설명하고 논문을 소개하겠다. Transfer Learning은 big dataset로 pre trained된 big model을 down stream으로 fine-tuning을 하는 것이다. 즉, 두 가지 철차로 이루어진다. (1) pre-training, (2) fine-tuning. 이 과정을 통하여 데이터가 적은 task에서도 좋은 성능을 가진 모델을 사용할 수 있다. Zero-Shot Transfer은 fine-tunin..

[논문 읽기] Delving Deep into the Generalization of Vision Transformers under Distribution Shifts(2021)

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts Chongzhi Zhang, Mingyuan Zhang, Shuanghang Zhang, arXiv 2021 PDF, Vision Transformer By SeonghoonYu July 15th, 2021 Summary 현실 세계 데이터는 ImageNet과 같이 잘 정제된 데이터가 아닌 Out-of-distribution data인 경우가 많습니다. 논문 저자는 ViT가 OOD에서의 generalization 능력을 CNN 모델과 비교하여 연구합니다. 결론먼저 말하면 (1) ViT가 CNN보다 OOD data에 generalization 능력이 뛰어납..

카테고리 없음 2021.08.12

[논문 읽기] Early Convolutions Help Transformers See Better(2021)

Early Convolutions Help Transformers See Better Tate Xiao, Mannat Singh, Eric Mintum, Trevor Darrell, Piotr Dollar, Ross Girschick, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 9th, 2021 Summary ViT는 Optimization에 민감합니다. 느린 수렴속도, Optimizer SGD를 사용하면 수렴이 안되고 lr 또는 weight decay 계수에도 민감합니다. 또한 ImageNet 에서 CNN의 성능을 뛰어넘지 못합니다. 저자는 ViT가 Optimization에 민감한 이유가 ViT의 초기 image를 patch 단위로 자를 때 사..

분야별 Vision Transformer 논문 정리

나중에 읽으려고 정리한 논문들입니다. ㅎㅎ 필요하신 분이 계실수도 있으니 공유합니다. 댓글로 vision transformer 논문 추천해주셔도 됩니다 ㅎㅎ Transformer가 서로 다른 데이터 사이에도 적용할 수 있고 데이터 종류에 따라 구조를 변경하지 않아도 되는 장점을 활용한 여러 분야에서 논문들 DPN, depth estimation, https://arxiv.org/abs/2103.13413 Point Transformation, Point cloud https://arxiv.org/abs/2012.09164 Perceiver, audio, video, point clouds, image, https://arxiv.org/abs/2103.03206 UniT, Multimodal, https:..

왜 Vision Transformer가 좋은 성능을 보일까요?

https://towardsdatascience.com/recent-developments-and-views-on-computer-vision-x-transformer-ed32a2c72654 Recent Developments and Views on Computer Vision x Transformer On the differences between Transformer and CNN, why Transformer matters, and what its weaknesses are. towardsdatascience.com 위 게시글을 번역했습니다. Why is Vision Transformer so accurate? Vision Transformer의 연구는 오랫동안 지속되어 왔는데요. 하지만 아직 Im..

[논문 구현] ViT(2020) PyTorch 구현 및 학습

공부 목적으로 ViT를 구현하고 학습한 내용을 공유합니다 ㅎㅎ. 작업 환경은 Google Colab에서 진행했습니다. 필요한 라이브러리를 설치 및 임포트합니다. !pip install einops import torch import torch.nn as nn import torch.nn.functional as F import matplotlib.pyplot as plt %matplotlib inline from torch import optim from torchvision import datasets import torchvision.transforms as transforms from torch.utils.data import DataLoader import os from torchvision im..

논문 구현 2021.08.04

[논문 읽기] MoCov3(2021), An Empirical Study of Training Self-Supervised Vision Transformers

안녕하세요, 오늘 읽은 논문은 An Empirical Study of Training Self-Supervised Vision Transformers 입니다. 해당 논문은 MoCov1/2보다 좋은 성능을 갖는 MoCov3을 제안하고, 이 MoCov3을 Vision Transfermers(ViT)에 적용하는 실험을 합니다. CNN 구조에 SSL을 적용하는 많은 연구가 이루어져 있지만 ViT 모델에는 어떻게 self-supervised learning을 적용해야하는지에 대해 많은 연구가 이루어지지 않았습니다. 저자는 다양한 실험을 통해 self-supervised ViT의 효과를 조사합니다. 또한 기존 self-supervised transformer 보다 좋은 성능을 보여줍니다. 실험을 위해 batch s..

[논문 읽기] Vision Transformer(ViT, 2020), An Image is Worth 16x16 Words, Transformers for Image Recognition at Scale

안녕하세요, 오늘 읽은 논문은 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 입니다. 해당 논문은 transformer를 image patch의 sequence에 적용하여 classification을 수행합니다. transformer는 computational efficiency와 scalability한 속성을 갖고 있어 엄청난 크기의 파라미터를 가진 모델로 확장할 수 있습니다. 컴퓨터 비전에서도 이 transformer을 적용하여 VIT는 엄청난 크기의 데이터셋으로 학습하여 SOTA를 달성합니다. transformer를 computer vision에서 적용하기에 inductive bias를 갖고 있습니다. CNN은 ..

반응형