반응형

논문 읽기 255

[논문 읽기] DetCo(2021), Unsupervised Contrastive Learning for Object Detection

DetCo: Unsupervised Contrastive Learning for Object Detection PDF, Object Detection SSL, Enze Xie, Jian Ding, Wenhai, Xiohang Zhan, ICCV 2021 Summary DetCo는 Object Detection을 위한 SSL 방법입니다. 이전의 OD SSL 방법(DenseCL, InsLoc, PatchReID)은 detection-friendly pretext task를 위해 설계되어 OD에서 성능은 뛰어나지만 classification에서의 성능은 오히려 감소합니다. 논문에서 제안하는 DetCO는 Detection, Classification 두 task에서 높은 성능을 보이도록 pretext를 설계합니..

[논문 읽기] Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency(2021)

Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency PDF, Video SSL , Haiping Wu, Xiaolong Wang, arXiv 2021 Summary VIdeo 도메인에 contrastive SSL 방법을 적용한 논문입니다. 기존 비디오 contrastive SSL 방법은 동일한 비디오 내의 frame를 positive로 정의하고, 다른 비디오 내의 frame을 negative로 정의했습니다. 그러다보니 다른 비디오 사이에 고양이나 테니스 선수가 존재해도 negative로 정의된다는 문제점이 발생합니다. 해당 논문은 서로 다른 video 내 frame이 동일한 객체를 나타낸다면 positive로 활..

[논문 읽기] Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective(2021)

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similrity Perspective PDF, Video SSL, Jiarui Xu, Xiaolong Wang, arXiv 2021 Summary SSL 방법으로 video correspondence를 학습하는 simple framework를 제안합니다. video 내에 존재하는 temporal contencency를 supervisory signal로 사용하여 correspondence matching을 가능하게 하는 representation을 학습합니다. 동일 비디오에서 서로 다른 프레임을 spatial augmentation을 적용한 후 predictor encoder..

[논문 읽기] Mining Better Samples for Contrastive Learning of Temporal Correspondence(2021)

Mining Better Samples for Contrastive Learning of Temporal Correspondence PDF, Video SSL, Sangryul Jeon, Dongbo Min, Seungryong Kim, Kwanghoon Sohn, CVPR 2021 Summary Contrastive learning을 활용하여 correspondence matching을 수행하는 video SSL 논문입니다. 해당 논문은 matching uncertainty를 측정하기 위해 3가지 기준을 사용합니다. (1) pixel-level에서 Forward-backward consistency, (2) image-level에서 optimal transport, (3) video-level에서 te..

[논문 읽기] Space-Time Correspondence as a Contrastive Random Walk(2020)

Space-Time Correspondence as a Contrastive Random Walk PDF, Video SSL, Allan A. Jabri, Andrew Owens, Alexei A. Efos, NIPS 2020 Summary Video SSL 논문입니다. affinity matrix에 softmax를 취하여 확률로 바라봄으로써 target frame까지의 path 확률이 최대화 하도록 학습합니다. 확률이 높은 path를 따라 k frame을 전진하고 다시 원래 frame으로 되돌아왔을 때, 원래 위치에 있도록 학습합니다. 비지도 학습이므로 어떤 수도레이블을 가해야할지가 관건인데, cycle consistent loss를 사용하여 forward와 backward 후 원래 위치로 돌아오도록 ..

[논문 읽기] ViViT: A Video Vision Transformer(2021)

ViViT: A Video VIsion Transformer PDF, Video, Anurang Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic, Cordelia Schmid, arXiv 2021 Summary Video 데이터를 Vision Transformer에 적용하여 Video classification task를 수행합니다. Tubelet embedding Tubelet embedding 방법을 사용하여 비디오를 embedding해 transformer로 전달합니다. 논문에서는 (h,w,t)16x16x2를 사용합니다. Video를 ViT에 적용하는 4가지 모델 variant를 제안합니다. 성능이 좋은 모델1과 모델2만 살펴보겠습니다...

[논문 읽기] Contrastive Transformation for Self-supervised Correspondence Learning(2020)

Contrastive Transformation for Self-supervised Correspondence Learning PDF, Video SSL, Ning Wang, Wengang Zhou, Houqiang Li, AAAI 2020 Summary video내에 존재하는 temporal consistency를 correspondence matching 으로 학습하기 위해 image domain에서 사용하는 Contrastive Learning을 video domain에 적용합니다. image domain 에서 단일 image에 augmentation을 적용한 image를 positive, 다른 image의 augmentation view는 negative로 정의하여 NCELoss를 사용합니다. 어..

[논문 읽기] MAST(2020), A Memory-Augmented Self-Supervised Tracker

MAST, A Memory-Augmented Self-Supervised Tracker PDF, Video SSL, Zihang Lai, Erika Lu, Weidi Xie, CVPR 2020 Summary self-supervised 방식으로 모델을 학습하여 video object segmentation task를 수행합니다. video frame이 진행될 수록 객체에 occlusion 등이 발생할 수 있어 error 가 축적됩니다. MAST는 reference frame을 여러개 사용하여 target과의 affinity matrix를 계산합니다. 여러 reference frame을 사용한다면 중간 frame에서 occlusion이 발생하였을 때의 위험을 감소시킬 수 있을 것입니다. 모델이 pixel-..

[논문 읽기] Joint-task Self-supervised Learning for Temporal Correspondence(2019)

Joint-task Self-supervised Learning for Temporal Correspondence PDF, Video SSL, Xuethin Li, Sifei Liu, Shalini De Mello, Xiaolong Wang, Jan Kautz, Ming-Hsuan Yang, arXiv 2019 Summary unlabeled video 로부터 video correspondence를 학습하기 위해 tracking과 colorization을 동시에 수행합니다. 현재 frame에서 무작위로 추출한 image patch와 다음 frame 전체 이미지를 CNN에 전달해 생성한 두 feature map 사이의 유사도를 계산합니다. 계산한 유사도를 기반으로 tracking을 수행합니다. tracki..

[논문 읽기] VisTR(2020), End-to-End Video Instance Segmentation with Transformers

End-to-End Video Instance Segmentation with Transformers PDF, Video, Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia, arXiv 2020 Summary Video instance segmentation(VIS) task를 수행하는 모델입니다. DETR과 유사한 구조를 갖으며 segmentation task를 수행하기 위해 segmentation branch가 추가되었고, video data를 다루기 때문에 temporal axis가 추가되었습니다. 기존 VIS task를 수행하는 모델들은 segmentation을 위한 pixel-leve..

반응형