반응형

논문 읽기 27

[논문 읽기] MAST(2020), A Memory-Augmented Self-Supervised Tracker

MAST, A Memory-Augmented Self-Supervised Tracker PDF, Video SSL, Zihang Lai, Erika Lu, Weidi Xie, CVPR 2020 Summary self-supervised 방식으로 모델을 학습하여 video object segmentation task를 수행합니다. video frame이 진행될 수록 객체에 occlusion 등이 발생할 수 있어 error 가 축적됩니다. MAST는 reference frame을 여러개 사용하여 target과의 affinity matrix를 계산합니다. 여러 reference frame을 사용한다면 중간 frame에서 occlusion이 발생하였을 때의 위험을 감소시킬 수 있을 것입니다. 모델이 pixel-..

[논문 읽기] CMT(2021), Convolutional Neural Networks Meet Vision Transformers

CMT: Convolutional Neural Networks Meet Vision Transformers PDF, Vision Transformer, Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing, Yunhe Wang, arXiv 2021 Summary CMT는 ViT에 CNN 구조를 추가하여 성능을 개선한 모델입니다. long-dependency 정보를 포착하는데 특화되어 있는 ViT와 local feature을 modeling 하는데에 장점이 있는 CNN 구조를 결합하면 더 좋은 성능을 보여줄 수 있다는 것을 보여줍니다. 현재 ViT를 scaling up하여 SOTA 성능을 기록하고 있는 ViT-G를 제외하고, CMT는 동일한 파라미터..

[논문 읽기] Deformable DETR(2020), Deformable Transformers for End-to-End Object Detection

Deformable DETR: Deformable Transformers for End-to-End Object Detection PDF, Object Detection, Xizhou Zhu, Weije Su, Lewei Lu, Xiaogang Wang, Jifeng Dai, arXiv 2020 Summary DETR의 문제점을 개선한 Deformable DETR 입니다. DETR은 (1) 수렴속도가 느리고 (2) 작은 물체에 대해서 낮은 성능을 갖습니다. 수렴속도가 느린 이유는 학습 초기에 attention weight이 모든 픽셀에 대하여 평균값을 갖고 학습이 진행되면서 attention map은 sparse값을 갖습니다. 이 과정에서 어려움을 겪기 때문입니다. 작은 물체에 대해서 낮은 성능을 갖는 ..

[논문 읽기] Early Convolutions Help Transformers See Better(2021)

Early Convolutions Help Transformers See Better Tate Xiao, Mannat Singh, Eric Mintum, Trevor Darrell, Piotr Dollar, Ross Girschick, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 9th, 2021 Summary ViT는 Optimization에 민감합니다. 느린 수렴속도, Optimizer SGD를 사용하면 수렴이 안되고 lr 또는 weight decay 계수에도 민감합니다. 또한 ImageNet 에서 CNN의 성능을 뛰어넘지 못합니다. 저자는 ViT가 Optimization에 민감한 이유가 ViT의 초기 image를 patch 단위로 자를 때 사..

[논문 읽기] CvT(2021), Introducing Convolutions to Vision Transformers

CvT: Introducing Convolutions to Vision Trnasformers Haiping Wu, Bin Xiao, Noel Codella, Mencgen Liu, Xiyang Dai Lu, Yuan Lei Zhang, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 8th, 2021 Summary CvT는 기존 CNN 구조에서 활용하는 계증 구조(hierarchical architecture)를 ViT에 적용한 논문입니다. 계층 구조를 형성할 수 있다면 low-layer에는 edge와 같은 low-level feature를 학습하고 높은 layer에서는 high-level feature을 학습할 것입니다. Vision Transfo..

[Paper Review] CeiT(2021), Incorporating Convolution Designs into Visual Transformers

Incorporating Convolution Designs into Visual Transformers Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou Fengwei Yu, Wei Wu, arXiv 2021 PDF, Transformer By SeonghoonYu August 5th, 2021 Summary CeiT is architecture that combines the advantages of CNNs in extracting low-level features, strengthening locality, and the advantages of Transformers in establishing long-range dependencies. ViT has two p..

[Paper Review] Deep InfoMax(2018), Learning Deep Representations by Mutual Information Estimation and Maximization

Learning Deep Representations by Mutual Information Estimation and Maximization R Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon, arXiv 2018 PDF, SSL By SeonghoonYu July 21th, 2021 Summary This paper updates model's parameters by maximizing mutial information between immediate feature maps and flattened last feature maps obtained from ConvNet. To do this, they use Jensen-Shannon divergence(..

[Paper review] Deep Clustering for Unsupervised Learning of Visual Features(2018)

Deep Clustering for Unsupervised Learning of Visual Features Mathilde Caron, Piotr Bojanowski, Armand Joulin, Matthijs Douze, arXiv 2018 PDF, Self Supervised Learning By SeonghoonYu July 15th, 2021 Summary This paper is clustering based self-supervised learning in an offline fashion. This model jointly learns the parameters of a neural network and the cluster assignments of the resulting feature..

[Paper review] SwAV(2020), Unsupervied Learning of Visual Features by Contrasting Cluster Assignments

Unsupervised Learning of Visual Features by Contrasting Cluster Assignments Mathilde Caron, Ishan Misra, Jullien Mairal, Priya Goyal, Piotr Bojanowski, Armand Joulin arxiv 2020 PDF, Self-Supervised Learning By SeonghoonYu July 19th, 2021 Summary This paper propose an online clustering-based self-supervised method learning visual features in an online fashion without supervision Typical clusterin..

[논문 읽기] MoCov3(2021), An Empirical Study of Training Self-Supervised Vision Transformers

안녕하세요, 오늘 읽은 논문은 An Empirical Study of Training Self-Supervised Vision Transformers 입니다. 해당 논문은 MoCov1/2보다 좋은 성능을 갖는 MoCov3을 제안하고, 이 MoCov3을 Vision Transfermers(ViT)에 적용하는 실험을 합니다. CNN 구조에 SSL을 적용하는 많은 연구가 이루어져 있지만 ViT 모델에는 어떻게 self-supervised learning을 적용해야하는지에 대해 많은 연구가 이루어지지 않았습니다. 저자는 다양한 실험을 통해 self-supervised ViT의 효과를 조사합니다. 또한 기존 self-supervised transformer 보다 좋은 성능을 보여줍니다. 실험을 위해 batch s..

반응형