논문 읽기/Classification

[논문 읽기] (2020) Noise or Signal: The Role of Image Backgrounds in Object Recognition

AI 꿈나무 2021. 6. 18. 00:10
반응형

 안녕하세요 ㅎㅎ!, 오늘 읽은 논문은 Noise or Signal: The Role of Image Backgrounds in Object Recognition 입니다.

 

 해당 논문은 image classification 모델이 이미지 배경으로부터 오는 signal에 의존적인 정도를 실험합니다. 실험 결과를 잠깐 살펴보면, 모델은 객체 뿐만 아니라 배경에서도 정보를 얻어 객체를 분류합니다. 이미지에서 객체를 제거하고, 배경만 있는 dataset으로 학습 한 후 원래 dataset으로 test를 진행하면 모델이 40~50% 정도의 정확도를 보여줍니다. 또한, 객체와 배경이 서로 다른 class로 합성한 이미지로 test 한 경우에, 모델이 오분류를 합니다. 이는 모델이 배경에 depend 하다는 것을 보여줍니다. robust한 모델을 만들기 위해서는 배경으로부터 오는 신호에 독립적이 되도록 학습이 되어야하는 필요성을 보여줍니다. 만약, 실시간 분류 task에서 비나 폭풍우에 의해서 객체의 배경이 심하게 훼손된다면 모델은 오분류를 할것입니다.

 

 이 논문에서는 모델이 분류를 할때, 배경 정보도 활용한다는 것을 보여주며, 저자는 사람도 배경을 활용하여 객체를 구분하듯이, 객체가 심하게 훼손된 경우에 모델이 배경 정보를 활용하는 장점이 될 수 있다고 합니다. 따라서 모델이 배경 정보를 활용하는 것이 장점이 될지, 단점이 될지는 추후에 연구할 질문이라고 합니다.

 

DataSet

 해당 논문은 이미지 분류에서 배경의 역할을 평가하기 위해서 새로운 데이터셋을 만듭니다. 우선, ImageNet 데이터셋에서 클레스를 단순하게 통합합니다. WordNet 계층 구조를 사용하여 imageNet class를 조상 class로 변경합니다. 총 9개의 class를 갖는 dataset을 생성합니다. 또한 이미지를 합성합니다.

 

 

 

 

 7개의 방법으로 이미지를 합성하며, 각각의 방법으로 합성된 이미지로 구성된 데이터셋을 만듭니다. original을 포함하여 총 8개의 데이터셋을 생성합니다. original dataset은 imagenet dataset에서 개별 class를 더 큰 범주의 9개의 class로 통합한 것입니다. 또한 다른 데이터셋도 9개의 class로 통합하여 사용합니다.

 

Quantifying Reliance on Background Signals

 새로운 데이터셋인 ImageNet-9로, classification에서 배경의 역할을 평가합니다.

 

(1) Back grounds suffice for classification

 

 배경만 존재하는 데이터셋으로 모델을 학습합니다. 이 모델을 original ImageNet-9 데이터셋으로 test한 결과, 40~50% 정도의 정확도를 보여줍니다. 이는 모델이 배경으로만 이미지를 분류할 수 있다는 것을 보여줍니다.

 

(2) Models exploit background signal for classification

 

 전경(foreground)와 배경 class가 일치하지 않는 경우에 모델이 오분류(misclassify)할 수 있습니다. MIXED-RAND dataset은 foreground class와 다른 background class로 합성된 이미지로 구성된 dataset입니다. 즉, 배경은 전경과 관련된 정보를 포함하지 않습니다. 전경과 배경의 클래스가 동일한 MIXED-SAME dataset에서 정확도와 비교하였을 때, MIXED-RAND의 정확도가 낮습니다. 이는 모델이 객체를 분류할때, 배경 정보를 활용한다는 것을 나타냅니다.

 

(3) Training on MIXED-RAND reduces background dependence

 전경과 배경의 클래스가 다르게 합성된 이미지로 구성된 MIXED-RAND dataset으로 학습하는 경우에 배경 의존성을 낮출 수 있습니다. 이 경우 모델이 배경으로부터 적은 신호를 추출합니다.

 

 

 위 그림을 살펴보면 ORIGINAL dataset으로 학습된 경우에 MIXED-NEXT와 MIXED-RAND, ONLY-FG dataset test 정확도가 크게 약화됩니다. 하지만 MIXED-RAND로 학습된 경우에 모든 dataset에 robust 한 경향을 보이네요

 

 

 위 그림은 original dataset과 Mixed-Rand dataset 각각 학습된 두 개의 모델의 saliency map입니다. siliency map은 모델이 어디를 보고 분류를 라는지 나타냅니다. Mixed-Rand의 경우에 background signal을 적게 활용하고, foreground에 집중하는 모습을 확인할 수 있습니다.

 

Experience

 아래 그림은 모델의 정확도가 높은 경우에 background signal에 robust 하다는 것을 보여줍니다.

 

 

 또한 논문에서는 모델이 전경에 집중하도록 하는것도 중요하지만, 전경이 훼손된 경우에 배경에서 정보를 얻어 분류할 수 있어, 특정 상황에서 유용하다고 말합니다. 또한 사람도 동일하게 배경 정보를 활용하여 객체 정보를 활용합니다. 그러므로 background reliance는 장점이 될지, 단점이 될지 추가적인 연구가 될 것이라고 말합니다.


참고자료

[1] https://arxiv.org/abs/2006.09994

반응형