반응형

논문 읽기 255

[논문 읽기] Learning Correspondence from the Cycle-consistency of Time(2019)

Learning Correspondence from the Cycle-consistency of Time PDF, Video SSL, Xiaolong Wang, Allan Jabri, Alexei A. Efros, CVPR 2019 익숙하지 않은 분야여서 논문 요약이 아니라 논문 해석이 되어버렸네요. video correspondence에 대한 배경지식이 많이 부족합니다 흑흑 Summary 비디오에 존재하는 객체는 인접한 프레임 사이에 correspondence가 존재합니다. 예를 들어, 농구 영상에서 농구공이 인접 프레임에서 계속 나타납니다. 프레임 사이의 농구공 correspondence를 supervisory signal로 사용하여 학습한다면 다양한 task에 활용할 수 있습니다. 즉, 해당 논문은..

[논문 읽기] Self-supervised Learning for Video Correspondence Flow(2019)

Self-supervised Learning for Video Correspondence Flow PDF, Video SSL, Zihang Lai, Weidi Xie, BMVC 2019 Summary Tracking Emerges by Colorizing VIdeos의 문제점을 개선한 논문입니다. Tracking Emerges by Colorizing Videos는 (1) 흑백 이미지를 입력으로 하여 모델을 학습시켰기 때문에 RGB 색상 채널 사이의 correlation을 포착하지 못합니다. 또한 (2) ground truth video frame의 pair로 학습을 하여 tracker drifting 문제가 발생합니다. 해당 논문은 위에서 언급한 문제점을 개선하기 위해 4가지 방법을 제안합니다. (1)..

[논문 읽기] SCRL(2021), Spatially Consistent Representation Learning

Spatially Consistent Representation Learning PDF, SSL, Byungseok Roh, Wuhyun Shin, Ildoo Kim, Sungwoong Kim, CVPR 2021 Summary Localization task를 위한 SSL 방법입니다. 기존 좋은 성능을 보였던 Contrastive Learning SSL 방법은 encoder의 출력값의 low-dimension embedding을 활용하여 Loss를 설계했었습니다. low-dimension embedding 사이의 정보를 활용하므로 positive 사이의 global representation이 일치하도록 학습을 진행하기 때문에 서로 다른 정보를 내포하고 있는 local region 사이에도 consist..

[논문 읽기] Tracking Emerges by Colorizing Videos(2018)

Tracking Emerges by Colorizing Videos PDF, Video SSL, Carl Vondrick, Abhinav Shrivastava, Alireza Fathi, Sergio Guadarrama, Kevin Murphy, ECCV 2018 Summary Unlabeled Video 데이터의 색상을 활용하여 colorization 모델을 학습합니다. 흑백 frame에서 직접 색상을 예측하는 대신에 reference frame와 target frame 사이의 유사도를 계산한 후, reference frame의 색상을 copy하여 유사도를 사용해 target frame의 색상을 예측합니다. 비디오에서 색상은 일반적으로 temporally stable 합니다. 갑자기 불이 켜지거나 꺼지..

[논문 읽기] CMT(2021), Convolutional Neural Networks Meet Vision Transformers

CMT: Convolutional Neural Networks Meet Vision Transformers PDF, Vision Transformer, Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing, Yunhe Wang, arXiv 2021 Summary CMT는 ViT에 CNN 구조를 추가하여 성능을 개선한 모델입니다. long-dependency 정보를 포착하는데 특화되어 있는 ViT와 local feature을 modeling 하는데에 장점이 있는 CNN 구조를 결합하면 더 좋은 성능을 보여줄 수 있다는 것을 보여줍니다. 현재 ViT를 scaling up하여 SOTA 성능을 기록하고 있는 ViT-G를 제외하고, CMT는 동일한 파라미터..

[논문 읽기] Scaling Vision Transformers(2021)

Scaling Vision Transformers PDF, Vision Transformer, Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer arXiv 2021 Summary 2 bilion 파라미터를 가진 ViT-G 모델을 학습하여 90.45% SOTA 성능을 달성합니다. 논문에서 여러가지 실험 결과를 보여줍니다. 인상 깊었던 몇 가지를 살펴보겠습니다. 모델 size와 data size 사이의 관계를 실험합니다. 이는 직관과 동일한 실험 결과를 도출합니다. model size와 data size이 클수록 좋은 성능을 달성합니다. downstream task에 trasnfer learning을 진행할 때, ViT에서 예측을 수행하는 head..

[논문읽기] DINO(2021), Emerging Properties in Self-Supervised Vision Transformers

Emerging Properties in Self-Supervised Vision Transformers PDF, SSL, Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, Armand Joulin, arXiv 2021 Summary 위 영상은 DINO의 attention map을 보여줍니다. 정확히 객체에만 attention map이 활성화되어 있어 segmentation mask처럼 보입니다. 이처럼 SSL + ViT는 CNN이나 SL ViT에서 나타나지 않는 성질인 semantic segmentation에 대한 정보를 학습할 수 있다고 말합니다. 즉, classification model은 ..

[논문읽기] YOLOS(2021), You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection PDF, Object Detection, Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, arXiv 2021 Summary Vision Transformer(ViT)에 class token을 제거하고 Detection token(Det-Tok)을 추가하여 object detection task를 수행합니다. 즉, object detection task를 sequence-to-sequence 방식으로 해결하려 합니다. Dek-Tok는 100xD 차원의 랜덤 초기화 행렬을 사용하며 NxD 차원의 pat..

[논문 읽기] Deformable DETR(2020), Deformable Transformers for End-to-End Object Detection

Deformable DETR: Deformable Transformers for End-to-End Object Detection PDF, Object Detection, Xizhou Zhu, Weije Su, Lewei Lu, Xiaogang Wang, Jifeng Dai, arXiv 2020 Summary DETR의 문제점을 개선한 Deformable DETR 입니다. DETR은 (1) 수렴속도가 느리고 (2) 작은 물체에 대해서 낮은 성능을 갖습니다. 수렴속도가 느린 이유는 학습 초기에 attention weight이 모든 픽셀에 대하여 평균값을 갖고 학습이 진행되면서 attention map은 sparse값을 갖습니다. 이 과정에서 어려움을 겪기 때문입니다. 작은 물체에 대해서 낮은 성능을 갖는 ..

[논문 읽기] PCL(2020), Prototypical Contrastive Learning of Unsupervised Representations

Prototypical Contrastive Learning of Unsupervised Representations Junnan Li, Pan Zhou, Caiming Xiong, Steven C.H Hoi, arXiv 2020 PDF, SSL By SeonghoonYu August 11th, 2021 Summary Clustering + NCE Loss 를 결합하여 self-supervised learning을 수행합니다. 기존의 contrastive learning의 문제점은 instance discrimination을 수행하기 때문에 비슷한 특징을 지닌 instance들을 negative로 정의하여 서로 밀어냈었습니다. 즉, low-level semantics를 포착하여 discriminative..

반응형