반응형

논문 읽기/Self-Supervised 43

Self-supervised Learning에 대하여

심심해서 적어보는 글. Self-supervised learning은 데이터가 부족한 환경에서 사용하는 것이 아니라, 데이터는 많은데 annotation이 없는 경우에 사용하는 것이다. unlabeled data 로부터 어떻게 pretask를 만들어서 효율적인 representation을 뽑아내느냐가 중요하며, 작년 까지 핫했던 SSL 모델들(DINO, MoCO, SimCL?)은 unlabeled data에 aumentation에 강하게 줘서 contrastive learning으로 augmentation에 불변한 representation을 뽑아내는 방향으로 발전해왔다. 22년 SSL 논문은 안읽어봐서 모르겠는데 현재도 비슷한 방향으로 연구가 진행되고 있지 않을까 싶다. 또한 SSL방법론이 성능을 내기..

[논문 읽기] DenseCL(2020), Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Dense Contrastive Learning for Self-Supervised Visual Pre-Training https://arxiv.org/abs/2011.09157 Dense Contrastive Learning for Self-Supervised Visual Pre-Training To date, most existing self-supervised learning methods are designed and optimized for image classification. These pre-trained models can be sub-optimal for dense prediction tasks due to the discrepancy between image-level predicti..

[논문 읽기] Masked Autoencoders Are Scalable Vision Learners(2021)

Masked Autoencoders Are Scalable Vision Learners PDF, Self-supervised Learning, He, et al, arXiv 2021 Summary 이미지를 패치로 짤라서 패치의 일부분을 mask 한다. mask 되지 않은 패치를 encoder로 입력하여 latent representation을 추출한다. 이 latent representation에 mask token을 추가하여 decoder로 전달한다. decoder은 mask token을 채우는 reconstruction 태스크를 수행한다. 인코더와 디코더 각각의 입력값에 포지셔널 인코딩이 적용된다. masked patch는 제외하고 인코더로 전달하는데 이 덕분에 encoder의 연산량이 감소한다. 패..

[논문 읽기] ViCC(2021), Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting PDF, Video SSL, Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu, arXiv 2021 Summary 옵티칼 플로우와 비디오 frame을 함께 활용하는 video ssl 방법입니다. optical flow는 모션 정보를 포함하고 있으므로 더 많은 정보를 활용할 수 있습니다. encoder의 출력값을 optimal transport 알고리즘인 sinkhorn 알고리즘을 사용하여 prototype과 maching을 합니다. 데이터를 prototype에 균등하게 할당하는 것..

[논문 읽기] EsViT(2021), Efficient Self-supervised Vision Transformers for Representation Learning

Efficient Self-supervised Vision Transformers for Representation Learning PDF, SSL, Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao, arXiv 2021 Summary ViT에 SSL을 적용하는 논문입니다. 논문에서는 multi-stage architecture를 사용합니다. multi-stage architecture를 사용하면 (1) 연산량 감소, (2) 계층 구조를 사용할 수 있습니다. multi-stage architecture를 사용하기 위해 patch merging을 사용하는데, 이미지를 더 큰 패치로 짤..

[논문 읽기] DetCo(2021), Unsupervised Contrastive Learning for Object Detection

DetCo: Unsupervised Contrastive Learning for Object Detection PDF, Object Detection SSL, Enze Xie, Jian Ding, Wenhai, Xiohang Zhan, ICCV 2021 Summary DetCo는 Object Detection을 위한 SSL 방법입니다. 이전의 OD SSL 방법(DenseCL, InsLoc, PatchReID)은 detection-friendly pretext task를 위해 설계되어 OD에서 성능은 뛰어나지만 classification에서의 성능은 오히려 감소합니다. 논문에서 제안하는 DetCO는 Detection, Classification 두 task에서 높은 성능을 보이도록 pretext를 설계합니..

[논문 읽기] Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency(2021)

Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency PDF, Video SSL , Haiping Wu, Xiaolong Wang, arXiv 2021 Summary VIdeo 도메인에 contrastive SSL 방법을 적용한 논문입니다. 기존 비디오 contrastive SSL 방법은 동일한 비디오 내의 frame를 positive로 정의하고, 다른 비디오 내의 frame을 negative로 정의했습니다. 그러다보니 다른 비디오 사이에 고양이나 테니스 선수가 존재해도 negative로 정의된다는 문제점이 발생합니다. 해당 논문은 서로 다른 video 내 frame이 동일한 객체를 나타낸다면 positive로 활..

[논문 읽기] Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective(2021)

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similrity Perspective PDF, Video SSL, Jiarui Xu, Xiaolong Wang, arXiv 2021 Summary SSL 방법으로 video correspondence를 학습하는 simple framework를 제안합니다. video 내에 존재하는 temporal contencency를 supervisory signal로 사용하여 correspondence matching을 가능하게 하는 representation을 학습합니다. 동일 비디오에서 서로 다른 프레임을 spatial augmentation을 적용한 후 predictor encoder..

[논문 읽기] Mining Better Samples for Contrastive Learning of Temporal Correspondence(2021)

Mining Better Samples for Contrastive Learning of Temporal Correspondence PDF, Video SSL, Sangryul Jeon, Dongbo Min, Seungryong Kim, Kwanghoon Sohn, CVPR 2021 Summary Contrastive learning을 활용하여 correspondence matching을 수행하는 video SSL 논문입니다. 해당 논문은 matching uncertainty를 측정하기 위해 3가지 기준을 사용합니다. (1) pixel-level에서 Forward-backward consistency, (2) image-level에서 optimal transport, (3) video-level에서 te..

[논문 읽기] Space-Time Correspondence as a Contrastive Random Walk(2020)

Space-Time Correspondence as a Contrastive Random Walk PDF, Video SSL, Allan A. Jabri, Andrew Owens, Alexei A. Efos, NIPS 2020 Summary Video SSL 논문입니다. affinity matrix에 softmax를 취하여 확률로 바라봄으로써 target frame까지의 path 확률이 최대화 하도록 학습합니다. 확률이 높은 path를 따라 k frame을 전진하고 다시 원래 frame으로 되돌아왔을 때, 원래 위치에 있도록 학습합니다. 비지도 학습이므로 어떤 수도레이블을 가해야할지가 관건인데, cycle consistent loss를 사용하여 forward와 backward 후 원래 위치로 돌아오도록 ..

반응형