반응형

object detection 48

[논문 읽기] Soft Teacher(2021), End-to-End Semi-Supervised Object Detection with Soft Teacher

End-to-End Semi-Supervised Object Detection with Soft Teacher https://arxiv.org/abs/2106.09018 End-to-End Semi-Supervised Object Detection with Soft Teacher This paper presents an end-to-end semi-supervised object detection approach, in contrast to previous more complex multi-stage methods. The end-to-end training gradually improves pseudo label qualities during the curriculum, and the more and ..

[논문 읽기] Pix2Seq(2021), A Language Modeling Framework for Object Detection

Pix2Seq: A Language Modeling Framework for Object Detection PDF, Object Detection, Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton, arXiv 2021 Summary Object Detection을 language task의 관점에서 푸는 모델입니다. Language framework를 사용하므로 기존 object detection 알고리즘의 복잡한 앵커 박스, nms의 필요성이 사라집니다. 바운딩 박스와 클래스를 토큰으로 나타내어 prediction을 수행하는데 기존 모델과 비슷한 성능을 보여줍니다. encoder-decoder 구조를 사용하는데 이미지를 입력 받아..

[논문 읽기] DetCo(2021), Unsupervised Contrastive Learning for Object Detection

DetCo: Unsupervised Contrastive Learning for Object Detection PDF, Object Detection SSL, Enze Xie, Jian Ding, Wenhai, Xiohang Zhan, ICCV 2021 Summary DetCo는 Object Detection을 위한 SSL 방법입니다. 이전의 OD SSL 방법(DenseCL, InsLoc, PatchReID)은 detection-friendly pretext task를 위해 설계되어 OD에서 성능은 뛰어나지만 classification에서의 성능은 오히려 감소합니다. 논문에서 제안하는 DetCO는 Detection, Classification 두 task에서 높은 성능을 보이도록 pretext를 설계합니..

[논문 읽기] SCRL(2021), Spatially Consistent Representation Learning

Spatially Consistent Representation Learning PDF, SSL, Byungseok Roh, Wuhyun Shin, Ildoo Kim, Sungwoong Kim, CVPR 2021 Summary Localization task를 위한 SSL 방법입니다. 기존 좋은 성능을 보였던 Contrastive Learning SSL 방법은 encoder의 출력값의 low-dimension embedding을 활용하여 Loss를 설계했었습니다. low-dimension embedding 사이의 정보를 활용하므로 positive 사이의 global representation이 일치하도록 학습을 진행하기 때문에 서로 다른 정보를 내포하고 있는 local region 사이에도 consist..

[논문 읽기] Deformable DETR(2020), Deformable Transformers for End-to-End Object Detection

Deformable DETR: Deformable Transformers for End-to-End Object Detection PDF, Object Detection, Xizhou Zhu, Weije Su, Lewei Lu, Xiaogang Wang, Jifeng Dai, arXiv 2020 Summary DETR의 문제점을 개선한 Deformable DETR 입니다. DETR은 (1) 수렴속도가 느리고 (2) 작은 물체에 대해서 낮은 성능을 갖습니다. 수렴속도가 느린 이유는 학습 초기에 attention weight이 모든 픽셀에 대하여 평균값을 갖고 학습이 진행되면서 attention map은 sparse값을 갖습니다. 이 과정에서 어려움을 겪기 때문입니다. 작은 물체에 대해서 낮은 성능을 갖는 ..

[Paper Review] ACT(2020), End-to-End Object Detection with Adaptive Clustering Transformer

End-to-End Object Detection with Adaptive Clustering Transformer Minghang Zheng, Peng Gao, Xiaogang Wang, HongshengLi, Hao Dong, arXiv 2020 PDF, Object Detection By SeonghoonYu July 31th, 2021 Summary This paper improve the computational complexity of DETR by replacing self-attention module in DETR with ACT(adaptive clustering transformer). Also they presents MTKD(Multi-Task Knowledge Distillati..

[논문 읽기] DETR(2020), End-to-End Object Detection with Transformers

안녕하세요, 오늘 읽은 논문은 End-to-End Object Detection with Transformers 입니다. 해당 논문은 direct set prediction을 위한 transformer eocoder-decoder 구조와 set prediction을 위한 bipartite matching loss를 제안합니다. set prediction은 object detection 모델이 각 object에 대하여 set of bounding boxes와 category labels을 예측하는 task를 의미합니다. 기존 방법들은 이 set prediction은 proposals를 사용하여 간접적으로 문제를 해결해 왔습니다. 기존 object detection 성능은 (1) postprocessing ..

[논문 읽기] YOLOr(2021), You Only Learn One Representation: Unified Network for Multiple Tasks

안녕하세요, 오늘 읽은 논문은 YOLOr, You Only Learn One Representation: Unified Network for Multiple Tasks 입니다. 해당 논문은 explicit knowledge와 implicit knowledge를 함께 사용하여 예측하는 모델을 제안합니다. 사람은 촉각, 시각, 청각과 과거의 경험을 통해 세상을 이해합니다. 사람의 경험은 일반적인 학습(explicit knowledge) 또는 subconsciously(implicit knowledge)에 의해 학습합니다. 그리고 이 두 경험은 뇌에 저장되고, 이 경험을 결합하여 이전에 보지 않았던 상황을 예측합니다. 위 강아지 그림을 보고 사람은 두 가지 경험을 활용하여 여러 질문에 답변할 수 있습니다. 저..

[논문 읽기] (2019), Consistency-based Semi-supervised Learning for Object Detection

안녕하세요, 오늘 읽은 논문은 Consistency-based Semi-supervised Learning for Object Detection 입니다. object detection task는 많은 수의 annotated sample이 필요합니다. 그리고 이를 사람이 직접 annotate하는 데에는 많은 비용이 필요합니다. 해당 논문에서는 unlabeled data를 활용하기 위한 semi-supervised learning 방법을 제안합니다. unlabeled data를 활용하기 위해 (1) consistency loss를 제안하고, back-ground class가 성능에 악영향을 주는 것을 방지하기 위해 (2) Background Elimination(BE)를 제안합니다. labeleing cos..

[논문 읽기] Swin Transforemr(2021), Hierarchical Vision Transformer using Shifted Windows

안녕하세요, 오늘 읽은 논문은 Swin Transformer: Hierarchical VIsion Transformer using Shifted Windows 입니다. Swin Transformer는 transformer 구조를 object detection에 적용한 모델입니다. text에 비해서 image는 어떻게 patch로 분할하느냐에 따라서 엄청나게 다양한 variant가 존재하고 이미지들의 resolution이 크다는 차이점이 있습니다. 이 차이첨을 다루기 위해 Sfited Windows를 사용하여 hierarchical transformer로 representation을 학습합니다. shifted window를 활용한 hierarchical transformer는 어떤 장점이 있을까요? 바로 ..

반응형