논문 읽기/Self-Supervised

[논문 읽기] Masked Autoencoders Are Scalable Vision Learners(2021)

AI 꿈나무 2021. 11. 18. 02:59
반응형

Masked Autoencoders Are Scalable Vision Learners

 PDFSelf-supervised Learning, He, et al, arXiv 2021

 

Summary

 

 이미지를 패치로 짤라서 패치의 일부분을 mask 한다. mask 되지 않은 패치를 encoder로 입력하여 latent representation을 추출한다. 이 latent representation에 mask token을 추가하여 decoder로 전달한다. decoder은 mask token을 채우는 reconstruction 태스크를 수행한다. 인코더와 디코더 각각의 입력값에 포지셔널 인코딩이 적용된다.

 

 masked patch는 제외하고 인코더로 전달하는데 이 덕분에 encoder의 연산량이 감소한다. 패치 수가 적어지므로 연산량도 적어질 것이다. decoder은 encoder와 동일한 구조를 사용하지 않아도 되므로 shallow model을 사용한다.

 

 mask 비율은 75%가 가장 성능이 잘 나온다.

 

 너무 쉬운 task를 모델에게 줘 버리면 mask patch 주변의 패치를 보고 reconstruction을 할 수 있다. high level 정보만을 포착하면 latent representation을 잘 뽑아낼 수 없을 것이다. mask 비율을 75%로 주면 상당히 어려운 태스크가 되는데 low-level 정보를 보고 reconstruction을 수행하므로 encoder가 더 본질적인 representation을 추출할 수 있다.

 

 


my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

 

반응형