반응형

분류 전체보기 823

[논문 읽기] MViT(2021), Multiscale Vision Transformers

Multiscale Vision Transformers PDF, Video TF, Haoqi Fan, Bo Xiong, Karttikeya Mangalam, arXiv 2021 Summary ViT를 Video에 적용한 논문입니다. 이전의 ViT + Video 논문과는 다르게 pre-trained 없이 뛰어난 성능을 보여줍니다. 해당 논문의 특징은 계층 구조를 활용한 모델입니다. 어떻게 계층 구조를 구현했는지 살펴보겠습니다. stage 구조를 지니는데 각 stage는 다수의 transformer block으로 이루어져 있습니다. 각 stage 앞단마다 resolution을 pooling하여 down sample하고 채널 수를 확장합니다. CNN 모델에서 사용하는 계층 구조 원리를 따릅니다. Qeury, ..

[논문 읽기] TimeSformer(2021), Is Space-Time Attention All You Need for Video Understanding?

Is Space-Time Attention All You Need for Video Understanding? PDF, Video TF, Gedas Bertasius, Heng Wang, Lorenzo Torresani, ICML 2021 Summary Transformer를 Video domain에 적용한 논문입니다. video는 sentence와 같이 sequential한 데이터로 볼 수 있습니다. word가 연속되는 것처럼 frame이 연속되기 때문입니다. Convolution을 self-attention으로 대체한다면 convolution이 갖고 있는 inductive bias 문제를 완화할 수 있습니다. conv는 적은 데이터 셋에 효과적이지만 데이터 수가 풍부할 경우 local한 영역에 제한되..

[논문 읽기] ViCC(2021), Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting PDF, Video SSL, Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu, arXiv 2021 Summary 옵티칼 플로우와 비디오 frame을 함께 활용하는 video ssl 방법입니다. optical flow는 모션 정보를 포함하고 있으므로 더 많은 정보를 활용할 수 있습니다. encoder의 출력값을 optimal transport 알고리즘인 sinkhorn 알고리즘을 사용하여 prototype과 maching을 합니다. 데이터를 prototype에 균등하게 할당하는 것..

[논문 읽기] Video Swin Transformer(2021)

Video Swin Transformer PDF, TF Video, Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu, arXiv 2021 Summary Swin transformer를 video로 확장시킨 논문. video는 temporal dimension을 추가적으로 지니고 있어서 어떻게 확장하는지 유심히 볼 필요가 있습니다. ViViT와는 다르게 joint self attention을 사용합니다. 3D patch embedding을 적용하여 차원의 3D token을 얻고, 3D window size를 정의하여 3D window 개수를 계산합니다. swin trasnformer와 동일하게 shifted window와 re..

[논문 읽기] EsViT(2021), Efficient Self-supervised Vision Transformers for Representation Learning

Efficient Self-supervised Vision Transformers for Representation Learning PDF, SSL, Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao, arXiv 2021 Summary ViT에 SSL을 적용하는 논문입니다. 논문에서는 multi-stage architecture를 사용합니다. multi-stage architecture를 사용하면 (1) 연산량 감소, (2) 계층 구조를 사용할 수 있습니다. multi-stage architecture를 사용하기 위해 patch merging을 사용하는데, 이미지를 더 큰 패치로 짤..

[논문 읽기] DetCo(2021), Unsupervised Contrastive Learning for Object Detection

DetCo: Unsupervised Contrastive Learning for Object Detection PDF, Object Detection SSL, Enze Xie, Jian Ding, Wenhai, Xiohang Zhan, ICCV 2021 Summary DetCo는 Object Detection을 위한 SSL 방법입니다. 이전의 OD SSL 방법(DenseCL, InsLoc, PatchReID)은 detection-friendly pretext task를 위해 설계되어 OD에서 성능은 뛰어나지만 classification에서의 성능은 오히려 감소합니다. 논문에서 제안하는 DetCO는 Detection, Classification 두 task에서 높은 성능을 보이도록 pretext를 설계합니..

[논문 읽기] Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency(2021)

Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency PDF, Video SSL , Haiping Wu, Xiaolong Wang, arXiv 2021 Summary VIdeo 도메인에 contrastive SSL 방법을 적용한 논문입니다. 기존 비디오 contrastive SSL 방법은 동일한 비디오 내의 frame를 positive로 정의하고, 다른 비디오 내의 frame을 negative로 정의했습니다. 그러다보니 다른 비디오 사이에 고양이나 테니스 선수가 존재해도 negative로 정의된다는 문제점이 발생합니다. 해당 논문은 서로 다른 video 내 frame이 동일한 객체를 나타낸다면 positive로 활..

[논문 읽기] Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective(2021)

Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similrity Perspective PDF, Video SSL, Jiarui Xu, Xiaolong Wang, arXiv 2021 Summary SSL 방법으로 video correspondence를 학습하는 simple framework를 제안합니다. video 내에 존재하는 temporal contencency를 supervisory signal로 사용하여 correspondence matching을 가능하게 하는 representation을 학습합니다. 동일 비디오에서 서로 다른 프레임을 spatial augmentation을 적용한 후 predictor encoder..

[논문 읽기] Mining Better Samples for Contrastive Learning of Temporal Correspondence(2021)

Mining Better Samples for Contrastive Learning of Temporal Correspondence PDF, Video SSL, Sangryul Jeon, Dongbo Min, Seungryong Kim, Kwanghoon Sohn, CVPR 2021 Summary Contrastive learning을 활용하여 correspondence matching을 수행하는 video SSL 논문입니다. 해당 논문은 matching uncertainty를 측정하기 위해 3가지 기준을 사용합니다. (1) pixel-level에서 Forward-backward consistency, (2) image-level에서 optimal transport, (3) video-level에서 te..

반응형