반응형
You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection
PDF, Object Detection, Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, arXiv 2021
Summary
Vision Transformer(ViT)에 class token을 제거하고 Detection token(Det-Tok)을 추가하여 object detection task를 수행합니다. 즉, object detection task를 sequence-to-sequence 방식으로 해결하려 합니다.
Dek-Tok는 100xD 차원의 랜덤 초기화 행렬을 사용하며 NxD 차원의 patch embedding에 concat을 합니다. 또한 N+100xD차원의 positional embedding을 더합니다.
detection token 출력값에 MLP를 적용하여 bounding box, class를 예측합니다.
Loss는 DETR의 헝가리안 loss를 사용합니다. 이분 매칭을 수행하는 헝가리안 loss를 사용하면 앵커박스, nms 의 필요성을 제거할 수 있습니다.
단 하나의 ViT 모델로 object detection task를 수행할 수 있다는게 놀랍네요. 모델을 바로 COCO dataset 으로 학습하는 것이 아니라 classification task인 ImageNet-1k dataset로 pre-train 한 후 COCO dataset에 Transfer learning을 진행합니다.
Experiment
성능이 뛰어나진 않네요
What I like about the paper
- ViT에 detection token을 추가하여 object detection task를 수행합니다.
my github
반응형