논문 읽기/Object Detection

[논문 읽기] EfficientDet(2020), Scalable and Efficient Object Detection

AI 꿈나무 2021. 5. 12. 15:19
반응형

 안녕하세요, 오늘 읽은 논문은 EfficientDet: Scalabel and Efficient Object Detection 입니다.

 

 EfficientDet은 backbone으로 efficient net을 사용하며, weighted bi-directional feature pyramid network(BiFPN)과 compound scaling을 제안합니다.

 

 

BiFPN

 BiFPN은 Cross-Scale Connection과 weighted feature fusion을 사용합니다.

 

 

(1) Cross-Scale Connection

 기존의 FPN은 한 방향으로만 정보가 흐른다는 단점이 존재합니다. 이를 해결하기 위해 PANet은 bottom-up path를 추가합니다. NAS-FPN은 architecture search로 찾은 FPN의 구조를 사용하지만 일정한 규칙성이 없어 해석하기가 어렵습니다. 저자는 PANet이 FPN과 NAS-FPN보다 좋은 서능을 보인다는 것을 발견하고 약간의 수정과 개선을 합니다.

 

 PANet은 하나의 top-down과 하나의 bottom-up이 존재하지만, BiFPN은 양방향(top-down, bottom-up)을 지닌 레이어를 여러개 쌓습니다. bidirectional한 레이어를 여러개 쌓으으로써 high-level feature fusion이 가능해집니다.

 

(2) Weighted Feature Fusion

 FPN내의 모든 input features는 output feature에 동일하지 않은 영향력을 갖습니다. 이 문제를 해결하기 위해 각 input feature 에 가중치를 가합니다. 각 input feature의 중요도에 따라 가중치를 가하는 것입니다.

 

 

 

 위 가중치 방법을 Fast normalized fusion이라고 표현합니다. 각 가중치는 ReLU가 적용된 이후이므로 항상 0이상의 값을 갖습니다.

 

 

 bidirectional와 weighted feature fusion의 유무에 따른 성능 차이입니다.

 

 

 bidirectional cross-scale connections와 fast normalized fusion을 결합한 BiFPN은 다음과 같은 formulation을 갖습니다.

 

Compound Scaling

 EfficientNet은 resolution, width, depth 3가지 요소를 주어진 자원에 맞게 동시에 scale up 했습니다. object detection은 classification보다 고려해야 할 요소가 더 많습니다. 이 논문에서는 backbone, BiFPN, class/box network, resolution 4가지 요소를 동시에 scale up 합니다.

 

 

(1) Backbone network

 compound coefficient는 0~7을 사용하여 그에 해당하는 모델은 EfficientNet-B0 ~ B7을 사용합니다.

 

(2) BiFPN network

 compound coefficient에 따라 BiFPN의 width와 depth를 증가시킵니다.

 

 

(3) Box/class prediction network

 

(4) Input image resolution

 

 아래 그림은 각 요소를 독립적으로 scale up 했을 때와 함께 scale up 했을 때의 비교입니다.

 

Performance

 


참고자료

[1] arxiv.org/abs/1911.09070

반응형