논문 읽기/Object Detection

[논문읽기] YOLOS(2021), You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

AI 꿈나무 2021. 8. 12. 17:41
반응형

You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

 PDFObject Detection, Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, arXiv 2021

 

Summary

 

 Vision Transformer(ViT)에 class token을 제거하고 Detection token(Det-Tok)을 추가하여 object detection task를 수행합니다. 즉, object detection task를 sequence-to-sequence 방식으로 해결하려 합니다.

 

 Dek-Tok는 100xD 차원의 랜덤 초기화 행렬을 사용하며 NxD 차원의 patch embedding에 concat을 합니다. 또한 N+100xD차원의 positional embedding을 더합니다.

 

 detection token 출력값에 MLP를 적용하여 bounding box, class를 예측합니다. 

 

 Loss는 DETR의 헝가리안 loss를 사용합니다. 이분 매칭을 수행하는 헝가리안 loss를 사용하면 앵커박스, nms 의 필요성을 제거할 수 있습니다. 

 

 단 하나의 ViT 모델로 object detection task를 수행할 수 있다는게 놀랍네요. 모델을 바로 COCO dataset 으로 학습하는 것이 아니라 classification task인 ImageNet-1k dataset로 pre-train 한 후 COCO dataset에 Transfer learning을 진행합니다. 

Experiment

 

 성능이 뛰어나진 않네요

What I like about the paper

  • ViT에 detection token을 추가하여 object detection task를 수행합니다.

my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

 

반응형