안녕하세요, 오늘 읽은 논문은 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 입니다.
해당 논문은 transformer를 image patch의 sequence에 적용하여 classification을 수행합니다. transformer는 computational efficiency와 scalability한 속성을 갖고 있어 엄청난 크기의 파라미터를 가진 모델로 확장할 수 있습니다. 컴퓨터 비전에서도 이 transformer을 적용하여 VIT는 엄청난 크기의 데이터셋으로 학습하여 SOTA를 달성합니다.
transformer를 computer vision에서 적용하기에 inductive bias를 갖고 있습니다. CNN은 localty한 정보를 추출하고, RNN은 sequence한 정보를 추출하여 적은 dataset으로 유용한 특징을 추출할 수 있습니다. transformer는 이러한 가정이 없기 때문에 엄청난 양의 data를 사용하여 global한 특징을 추출해야 합니다. 해당 논문에서는 엉ㅁ청난 양의 데이터를 사용하여 이 inductive bias를 깼다고 합니다.
Vision Transformer(ViT)
Vit는 이미지를 patch로 분할하고, 이 patch들을 linear embedding에 전달합니다. 그리고 이것을 transformer의 입력값으로 사용합니다. 즉, 하나 하나의 patch를 NLP의 token으로 간주하는 것입니다.
embedding은 NLP의 transformer와 동일하게 learnable positional embedding과 element-wise sum으로 결합된 embedding을 사용하며 0번째 patch + position embedding에는 class를 부여합니다. 그리고 이것을 patch embedding이라고 부릅니다.
transformer encoder 출력값에 하나의 hidden layer를 가진 MLP를 사용하여 pre-train 합니다. pine-tunning 시에는 랜덤 초기화된 하나의 linear layer를 사용합니다. 또한 pre-train에서 학습된 positional embedding은 fine-tunning시에 다른 해상도로 이미지에 대한 position embedding을 조정해야 합니다. 학습 초기에 position embedding은 patch의 2D 위치에 대한 아무런 정보를 제공하지 않고, patch 사이에 공간적인 관계는 처음부터 학습되어야 합니다. 논문에서는 고해상도 이미지로 pine tunning 할 때는, 학습된 pre-trained position embedding에 2D interpolation하는 방법을 사용합니다.
hybrid architecture도 소개합니다. CNN과 transformer를 함께 사용하는 것입니다. CNN의 feature map으로부터 patch를 추출하여 patch embedding을 적용합니다. CNN으로 localty한 정보를 추출하고, 이 정보들의 patch의 sequence를 embedding하여 transformer로 전달하는 것입니다. VIT에 비해 좀 더 적은 dataset으로 성능이 saturate하다는 장점이 있습니다. 하지만 큰 데이터셋을 사용한다면 VIT보다 성능이 뒤떨어 집니다.
Experiment
VIT의 3가지 variant 입니다.
다른 SOTA 모델과의 비교입니다. ImageNet dataset + Image21K + JFT의 엄청난 dataset으로 학습된 VIT는 sota 성능을 보여줍니다.
VIT를 서로 다른 크기의 dataset으로 학습시킨 후 downsteam task로 fine-tunning한 성능입니다.
다른 모델과의 성능 비교입니다.
학습에 사용된 dataset의 크기가 커질 수록 VIT의 성능이 향상되는 모습입니다. 단지 ImageNet으로만 Vit를 학습시킨 경우에 비교적 안좋은 성능을 보여줍니다.
FLOPs에 따른 성능입니다. VIT는 BiT와 동일한 연산량에서 성능을 능가합니다. 또한 Hybrid 방법은 모델이 작은 사이즈 일때, ViT를 능가합니다.
attention map을 시각화한 그림입니다.
참고 자료