논문 읽기/Zero shot

[논문 읽기] DETIC, Detecting Twenty thousand Classes using Image-lebel Supervision(2022)

AI 꿈나무 2022. 2. 22. 20:56
반응형

DETIC, Detecting Twenty thousand Classes using Image-label Supervision

 

https://arxiv.org/abs/2201.02605

 

Detecting Twenty-thousand Classes using Image-level Supervision

Current object detectors are limited in vocabulary size due to the small scale of detection datasets. Image classifiers, on the other hand, reason about much larger vocabularies, as their datasets are larger and easier to collect. We propose Detic, which s

arxiv.org

 

 

 detection dataset과 classification dataset을 함께 활용한다.

 

 detection dataset은 image와 box gt(class, coordinates) 정보를 갖고 있고, classification은 image와 category 정보를 갖고 있다.

 

 mini-batch에 두 dataset을 함께 담는다.

 

 detection dataset 이미지가 입력되면 일반적인 2-stage detector 처럼 학습을 진행한다.

 

 classification dataset 이미지가 입력되면 2-stage 단계에서 classifier에만 loss를 가한다. classifier의 가중치는 clip의 word representation으로 이루어져 있고, 1-stage RPN이 추출한 proposal중 가장 사이즈가 큰 proposal에 image label gt loss를 가한다.

 

 

 classification dataset은 detection set보다 class수가 훨씬 많으므로 open-vocabulary detection이 가능하게 한다.

 

 

 

 

 

 

 

GitHub - Seonghoon-Yu/AI_Paper_Review: 까먹으면 다시 보려고 정리합니다.

까먹으면 다시 보려고 정리합니다. Contribute to Seonghoon-Yu/AI_Paper_Review development by creating an account on GitHub.

github.com

 

 

반응형