반응형
DETIC, Detecting Twenty thousand Classes using Image-label Supervision
https://arxiv.org/abs/2201.02605
detection dataset과 classification dataset을 함께 활용한다.
detection dataset은 image와 box gt(class, coordinates) 정보를 갖고 있고, classification은 image와 category 정보를 갖고 있다.
mini-batch에 두 dataset을 함께 담는다.
detection dataset 이미지가 입력되면 일반적인 2-stage detector 처럼 학습을 진행한다.
classification dataset 이미지가 입력되면 2-stage 단계에서 classifier에만 loss를 가한다. classifier의 가중치는 clip의 word representation으로 이루어져 있고, 1-stage RPN이 추출한 proposal중 가장 사이즈가 큰 proposal에 image label gt loss를 가한다.
classification dataset은 detection set보다 class수가 훨씬 많으므로 open-vocabulary detection이 가능하게 한다.
반응형