[논문 읽기] LiT, Zero-Shot Transfer with Locked-image Text Tuning(2021)

논문 읽기/Zero shot

[논문 읽기] LiT, Zero-Shot Transfer with Locked-image Text Tuning(2021)

AI 꿈나무 2021. 11. 24. 17:04

LiT: Zero-Shot Transfer with Locked-image Text Tuning

PDF, Zero-Shot Transfer, Zhai et al, arXiv 2021

Summary

Transfer Learning과 Zero-Shot Transfer 의 차이점 먼저 설명하고 논문을 소개하겠다.

Transfer Learning은 big dataset로 pre trained된 big model을 down stream으로 fine-tuning을 하는 것이다. 즉, 두 가지 철차로 이루어진다. (1) pre-training, (2) fine-tuning. 이 과정을 통하여 데이터가 적은 task에서도 좋은 성능을 가진 모델을 사용할 수 있다.

Zero-Shot Transfer은 fine-tuning 단계를 제거한다. zero-shot model은 unseen class에 해당하는 image를 예측할 수 있다. 따라서 fine-tuning 없이도 새로운 task에 적용할 수 있다. zero-shot learning으로 학습된 model이 필요한데, 이는 일반적인 supervision model과는 학습방법이 다르다. class를 text를 사용하고, image encoder가 추출한 feature와 text embedding 사이의 alignment를 잘 맞춰주어야 한다.

해당 논문은 zero-shot transfer이 잘 이루어지는 setting에 대한 연구이다.

세 가지 setting을 실험한다. L은 super vision으로 pre-trained 된 모델을 freeze 한것, U는 pre-trained 모델로 초기화해서 fine tune, u는 initialize 없이 scratch 부터 학습된 것을 의미한다.

supervision pre-trainined 모델을 사용하기 위해서는 출력값 차원을 변경해주는 MLP head가 필요하다. word embedding 차원과 image encoder 출력값 차원을 맞추어야 하기 때문이다.

아무튼 zero-shot learning을 위해서 image와 text encoder 가 필요한데, 이 둘의 출력값을 alignment해줘야 한다.

해당 논문에서는 image encoder은 pre-trained model 불러와서 freeze 시키고, text encoder은 바닥부터 학습시키는게 좋다고 한다.

image encoder가 좋은 representation을 추출하면 이 representation을 text encoder가 읽고, 그에 해당하는 word embedding을 학습할 것이다.

my github

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

'논문 읽기 > Zero shot' 카테고리의 다른 글

[논문 읽기] ALIGN(2021), Scaling Up Vision-Language Representation Learning with Noisy Text Supervision (0)	2021.12.01
[논문 읽기] DAZLE(2020), Fine-Grained Generalized Zero-Shot Learning via Dense Attribute-Based Attention (0)	2021.11.29
[논문 읽기] Zero-shot Learning via Shared-Reconstruction-Graph Pursuit(2017) (0)	2021.11.22
[논문 읽기] DeViSE, A Deep Visual-Semantic Embedding Model(2013) (0)	2021.11.22
[논문 읽기] A Generative Adversarial Approach for Zero-Shot Learning from Noisy Texts(2017) (0)	2021.11.09

현재글[논문 읽기] LiT, Zero-Shot Transfer with Locked-image Text Tuning(2021)

딥러닝 공부방