반응형

논문 읽기/Object Detection 40

[논문 읽기] Pix2Seq(2021), A Language Modeling Framework for Object Detection

Pix2Seq: A Language Modeling Framework for Object Detection PDF, Object Detection, Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton, arXiv 2021 Summary Object Detection을 language task의 관점에서 푸는 모델입니다. Language framework를 사용하므로 기존 object detection 알고리즘의 복잡한 앵커 박스, nms의 필요성이 사라집니다. 바운딩 박스와 클래스를 토큰으로 나타내어 prediction을 수행하는데 기존 모델과 비슷한 성능을 보여줍니다. encoder-decoder 구조를 사용하는데 이미지를 입력 받아..

[논문읽기] YOLOS(2021), You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection PDF, Object Detection, Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, arXiv 2021 Summary Vision Transformer(ViT)에 class token을 제거하고 Detection token(Det-Tok)을 추가하여 object detection task를 수행합니다. 즉, object detection task를 sequence-to-sequence 방식으로 해결하려 합니다. Dek-Tok는 100xD 차원의 랜덤 초기화 행렬을 사용하며 NxD 차원의 pat..

[논문 읽기] Deformable DETR(2020), Deformable Transformers for End-to-End Object Detection

Deformable DETR: Deformable Transformers for End-to-End Object Detection PDF, Object Detection, Xizhou Zhu, Weije Su, Lewei Lu, Xiaogang Wang, Jifeng Dai, arXiv 2020 Summary DETR의 문제점을 개선한 Deformable DETR 입니다. DETR은 (1) 수렴속도가 느리고 (2) 작은 물체에 대해서 낮은 성능을 갖습니다. 수렴속도가 느린 이유는 학습 초기에 attention weight이 모든 픽셀에 대하여 평균값을 갖고 학습이 진행되면서 attention map은 sparse값을 갖습니다. 이 과정에서 어려움을 겪기 때문입니다. 작은 물체에 대해서 낮은 성능을 갖는 ..

[Paper Review] ACT(2020), End-to-End Object Detection with Adaptive Clustering Transformer

End-to-End Object Detection with Adaptive Clustering Transformer Minghang Zheng, Peng Gao, Xiaogang Wang, HongshengLi, Hao Dong, arXiv 2020 PDF, Object Detection By SeonghoonYu July 31th, 2021 Summary This paper improve the computational complexity of DETR by replacing self-attention module in DETR with ACT(adaptive clustering transformer). Also they presents MTKD(Multi-Task Knowledge Distillati..

[논문 읽기] DETR(2020), End-to-End Object Detection with Transformers

안녕하세요, 오늘 읽은 논문은 End-to-End Object Detection with Transformers 입니다. 해당 논문은 direct set prediction을 위한 transformer eocoder-decoder 구조와 set prediction을 위한 bipartite matching loss를 제안합니다. set prediction은 object detection 모델이 각 object에 대하여 set of bounding boxes와 category labels을 예측하는 task를 의미합니다. 기존 방법들은 이 set prediction은 proposals를 사용하여 간접적으로 문제를 해결해 왔습니다. 기존 object detection 성능은 (1) postprocessing ..

[논문 읽기] YOLOr(2021), You Only Learn One Representation: Unified Network for Multiple Tasks

안녕하세요, 오늘 읽은 논문은 YOLOr, You Only Learn One Representation: Unified Network for Multiple Tasks 입니다. 해당 논문은 explicit knowledge와 implicit knowledge를 함께 사용하여 예측하는 모델을 제안합니다. 사람은 촉각, 시각, 청각과 과거의 경험을 통해 세상을 이해합니다. 사람의 경험은 일반적인 학습(explicit knowledge) 또는 subconsciously(implicit knowledge)에 의해 학습합니다. 그리고 이 두 경험은 뇌에 저장되고, 이 경험을 결합하여 이전에 보지 않았던 상황을 예측합니다. 위 강아지 그림을 보고 사람은 두 가지 경험을 활용하여 여러 질문에 답변할 수 있습니다. 저..

[논문 읽기] Swin Transforemr(2021), Hierarchical Vision Transformer using Shifted Windows

안녕하세요, 오늘 읽은 논문은 Swin Transformer: Hierarchical VIsion Transformer using Shifted Windows 입니다. Swin Transformer는 transformer 구조를 object detection에 적용한 모델입니다. text에 비해서 image는 어떻게 patch로 분할하느냐에 따라서 엄청나게 다양한 variant가 존재하고 이미지들의 resolution이 크다는 차이점이 있습니다. 이 차이첨을 다루기 위해 Sfited Windows를 사용하여 hierarchical transformer로 representation을 학습합니다. shifted window를 활용한 hierarchical transformer는 어떤 장점이 있을까요? 바로 ..

[논문 읽기] CenterNet2(2021), Probabilistic two-stage detection

안녕하세요, 오늘 읽은 논문은 CenterNetv2, Probabilistic two-stage detection 입니다. 해당 논문은 one-stage 모델을 RPN으로 사용하여 class-agnostic한 region proposal을 생성한 후에 region proposal을 분류하는 head를 추가하여 two-stage 모델로 변경합니다. CenterNet에 FPN구조를 추가하고, CenterNet이 생성한 proposals들을 추가한 head로 분류하여 최종 결과를 나타내는 CenterNetv2는 2021년에 SOTA를 달성합니다. one-stage 모델을 RPN으로 사용한다니 신박하네요..ㅎㅎ two-stage에서 사용하는 RPN은 recall을 최대화하는 목적으로 region proposal..

[논문 읽기] CircleNet(2020), Anchor-free Detection with Circle Representation

안녕하세요! 오늘 읽은 논문은 CircleNet: Anchor-free Detection with Circle Representation 입니다. 거의 이주 만에 논문을 읽어보는 것 같아요..ㅎㅎ 요즘 수학이 부족하다는 것을 많이 느껴서 수학만 공부하고 있네요ㅎㅎ 이 논문에 관심을 갖게 된 계기는 앵커 박스를 사용하지 않는 Anchor-free detection 이기 때문입니다. anchor box based detection 모델을 구현해보면서, anchor box를 설계하는 것이 너무 복잡했어요. free anchor의 필요성을 느끼고 있던 와중에 이 논문을 알게되어서 읽게 되었습니다ㅎㅎ CircleNet은 신장에 존재하는 사구체를 검출하기 위한 모델이며, 기존의 사각형의 바운딩박스가 아닌 원 모양의..

[논문 읽기] DIoU Loss(2020), Distance-IoU Loss, Faster and Better Learning for Bounding Box Regression

안녕하세요, 오늘 읽은 논문은 Distance-IoU Loss Fater and Better Learning for Bounding Box Regression 입니다. 이 논문에서는 bounding box regression loss인 CIoU Loss와 DIoU Loss를 제안합니다. DIoU Loss는 target box와 predicted box 사이의 IoU와 중심점을 요소로 Loss를 계산합니다. DIoU Loss는 NMS의 threshold로 사용합니다. IoU를 threshold로 사용하는 것보다 중심점과 IoU를 고려하는 DIoU를 threshold로 사용한다면 class가 동일한 ground-truth box가 겹쳐있는 경우에 supression 하는 것을 방지할 수 있습니다. CIoU ..

반응형