[논문 읽기] Masked Autoencoders Are Scalable Vision Learners(2021)

논문 읽기/Self-Supervised

[논문 읽기] Masked Autoencoders Are Scalable Vision Learners(2021)

AI 꿈나무 2021. 11. 18. 02:59

Masked Autoencoders Are Scalable Vision Learners

PDF, Self-supervised Learning, He, et al, arXiv 2021

Summary

이미지를 패치로 짤라서 패치의 일부분을 mask 한다. mask 되지 않은 패치를 encoder로 입력하여 latent representation을 추출한다. 이 latent representation에 mask token을 추가하여 decoder로 전달한다. decoder은 mask token을 채우는 reconstruction 태스크를 수행한다. 인코더와 디코더 각각의 입력값에 포지셔널 인코딩이 적용된다.

masked patch는 제외하고 인코더로 전달하는데 이 덕분에 encoder의 연산량이 감소한다. 패치 수가 적어지므로 연산량도 적어질 것이다. decoder은 encoder와 동일한 구조를 사용하지 않아도 되므로 shallow model을 사용한다.

mask 비율은 75%가 가장 성능이 잘 나온다.

너무 쉬운 task를 모델에게 줘 버리면 mask patch 주변의 패치를 보고 reconstruction을 할 수 있다. high level 정보만을 포착하면 latent representation을 잘 뽑아낼 수 없을 것이다. mask 비율을 75%로 주면 상당히 어려운 태스크가 되는데 low-level 정보를 보고 reconstruction을 수행하므로 encoder가 더 본질적인 representation을 추출할 수 있다.

my github

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

'논문 읽기 > Self-Supervised' 카테고리의 다른 글

Self-supervised Learning에 대하여 (0)	2022.08.17
[논문 읽기] DenseCL(2020), Dense Contrastive Learning for Self-Supervised Visual Pre-Training (2)	2021.12.28
[논문 읽기] ViCC(2021), Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting (2)	2021.09.07
[논문 읽기] EsViT(2021), Efficient Self-supervised Vision Transformers for Representation Learning (0)	2021.09.06
[논문 읽기] DetCo(2021), Unsupervised Contrastive Learning for Object Detection (0)	2021.09.04

현재글[논문 읽기] Masked Autoencoders Are Scalable Vision Learners(2021)

딥러닝 공부방