반응형

Self Supervised Learning 25

Self-supervised Learning에 대하여

심심해서 적어보는 글. Self-supervised learning은 데이터가 부족한 환경에서 사용하는 것이 아니라, 데이터는 많은데 annotation이 없는 경우에 사용하는 것이다. unlabeled data 로부터 어떻게 pretask를 만들어서 효율적인 representation을 뽑아내느냐가 중요하며, 작년 까지 핫했던 SSL 모델들(DINO, MoCO, SimCL?)은 unlabeled data에 aumentation에 강하게 줘서 contrastive learning으로 augmentation에 불변한 representation을 뽑아내는 방향으로 발전해왔다. 22년 SSL 논문은 안읽어봐서 모르겠는데 현재도 비슷한 방향으로 연구가 진행되고 있지 않을까 싶다. 또한 SSL방법론이 성능을 내기..

[논문 읽기] DenseCL(2020), Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Dense Contrastive Learning for Self-Supervised Visual Pre-Training https://arxiv.org/abs/2011.09157 Dense Contrastive Learning for Self-Supervised Visual Pre-Training To date, most existing self-supervised learning methods are designed and optimized for image classification. These pre-trained models can be sub-optimal for dense prediction tasks due to the discrepancy between image-level predicti..

[논문 읽기] ViCC(2021), Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting PDF, Video SSL, Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu, arXiv 2021 Summary 옵티칼 플로우와 비디오 frame을 함께 활용하는 video ssl 방법입니다. optical flow는 모션 정보를 포함하고 있으므로 더 많은 정보를 활용할 수 있습니다. encoder의 출력값을 optimal transport 알고리즘인 sinkhorn 알고리즘을 사용하여 prototype과 maching을 합니다. 데이터를 prototype에 균등하게 할당하는 것..

[논문 읽기] DetCo(2021), Unsupervised Contrastive Learning for Object Detection

DetCo: Unsupervised Contrastive Learning for Object Detection PDF, Object Detection SSL, Enze Xie, Jian Ding, Wenhai, Xiohang Zhan, ICCV 2021 Summary DetCo는 Object Detection을 위한 SSL 방법입니다. 이전의 OD SSL 방법(DenseCL, InsLoc, PatchReID)은 detection-friendly pretext task를 위해 설계되어 OD에서 성능은 뛰어나지만 classification에서의 성능은 오히려 감소합니다. 논문에서 제안하는 DetCO는 Detection, Classification 두 task에서 높은 성능을 보이도록 pretext를 설계합니..

[논문 읽기] Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective(2021)

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similrity Perspective PDF, Video SSL, Jiarui Xu, Xiaolong Wang, arXiv 2021 Summary SSL 방법으로 video correspondence를 학습하는 simple framework를 제안합니다. video 내에 존재하는 temporal contencency를 supervisory signal로 사용하여 correspondence matching을 가능하게 하는 representation을 학습합니다. 동일 비디오에서 서로 다른 프레임을 spatial augmentation을 적용한 후 predictor encoder..

[논문 읽기] Space-Time Correspondence as a Contrastive Random Walk(2020)

Space-Time Correspondence as a Contrastive Random Walk PDF, Video SSL, Allan A. Jabri, Andrew Owens, Alexei A. Efos, NIPS 2020 Summary Video SSL 논문입니다. affinity matrix에 softmax를 취하여 확률로 바라봄으로써 target frame까지의 path 확률이 최대화 하도록 학습합니다. 확률이 높은 path를 따라 k frame을 전진하고 다시 원래 frame으로 되돌아왔을 때, 원래 위치에 있도록 학습합니다. 비지도 학습이므로 어떤 수도레이블을 가해야할지가 관건인데, cycle consistent loss를 사용하여 forward와 backward 후 원래 위치로 돌아오도록 ..

[논문 읽기] Contrastive Transformation for Self-supervised Correspondence Learning(2020)

Contrastive Transformation for Self-supervised Correspondence Learning PDF, Video SSL, Ning Wang, Wengang Zhou, Houqiang Li, AAAI 2020 Summary video내에 존재하는 temporal consistency를 correspondence matching 으로 학습하기 위해 image domain에서 사용하는 Contrastive Learning을 video domain에 적용합니다. image domain 에서 단일 image에 augmentation을 적용한 image를 positive, 다른 image의 augmentation view는 negative로 정의하여 NCELoss를 사용합니다. 어..

[논문 읽기] Joint-task Self-supervised Learning for Temporal Correspondence(2019)

Joint-task Self-supervised Learning for Temporal Correspondence PDF, Video SSL, Xuethin Li, Sifei Liu, Shalini De Mello, Xiaolong Wang, Jan Kautz, Ming-Hsuan Yang, arXiv 2019 Summary unlabeled video 로부터 video correspondence를 학습하기 위해 tracking과 colorization을 동시에 수행합니다. 현재 frame에서 무작위로 추출한 image patch와 다음 frame 전체 이미지를 CNN에 전달해 생성한 두 feature map 사이의 유사도를 계산합니다. 계산한 유사도를 기반으로 tracking을 수행합니다. tracki..

[논문 읽기] Self-supervised Learning for Video Correspondence Flow(2019)

Self-supervised Learning for Video Correspondence Flow PDF, Video SSL, Zihang Lai, Weidi Xie, BMVC 2019 Summary Tracking Emerges by Colorizing VIdeos의 문제점을 개선한 논문입니다. Tracking Emerges by Colorizing Videos는 (1) 흑백 이미지를 입력으로 하여 모델을 학습시켰기 때문에 RGB 색상 채널 사이의 correlation을 포착하지 못합니다. 또한 (2) ground truth video frame의 pair로 학습을 하여 tracker drifting 문제가 발생합니다. 해당 논문은 위에서 언급한 문제점을 개선하기 위해 4가지 방법을 제안합니다. (1)..

[논문 읽기] SCRL(2021), Spatially Consistent Representation Learning

Spatially Consistent Representation Learning PDF, SSL, Byungseok Roh, Wuhyun Shin, Ildoo Kim, Sungwoong Kim, CVPR 2021 Summary Localization task를 위한 SSL 방법입니다. 기존 좋은 성능을 보였던 Contrastive Learning SSL 방법은 encoder의 출력값의 low-dimension embedding을 활용하여 Loss를 설계했었습니다. low-dimension embedding 사이의 정보를 활용하므로 positive 사이의 global representation이 일치하도록 학습을 진행하기 때문에 서로 다른 정보를 내포하고 있는 local region 사이에도 consist..

반응형