반응형
Masked Autoencoders Are Scalable Vision Learners
PDF, Self-supervised Learning, He, et al, arXiv 2021
Summary
이미지를 패치로 짤라서 패치의 일부분을 mask 한다. mask 되지 않은 패치를 encoder로 입력하여 latent representation을 추출한다. 이 latent representation에 mask token을 추가하여 decoder로 전달한다. decoder은 mask token을 채우는 reconstruction 태스크를 수행한다. 인코더와 디코더 각각의 입력값에 포지셔널 인코딩이 적용된다.
masked patch는 제외하고 인코더로 전달하는데 이 덕분에 encoder의 연산량이 감소한다. 패치 수가 적어지므로 연산량도 적어질 것이다. decoder은 encoder와 동일한 구조를 사용하지 않아도 되므로 shallow model을 사용한다.
mask 비율은 75%가 가장 성능이 잘 나온다.
너무 쉬운 task를 모델에게 줘 버리면 mask patch 주변의 패치를 보고 reconstruction을 할 수 있다. high level 정보만을 포착하면 latent representation을 잘 뽑아낼 수 없을 것이다. mask 비율을 75%로 주면 상당히 어려운 태스크가 되는데 low-level 정보를 보고 reconstruction을 수행하므로 encoder가 더 본질적인 representation을 추출할 수 있다.
my github
반응형