논문 읽기/Augmentation

[논문 읽기] (2020) Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

AI 꿈나무 2021. 6. 26. 16:41
반응형

 오늘 읽은 논문은 Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation 입니다.

 

 Segmentation task를 위한 Copy-Paste augmentation을 dataset에 적용하여 성능을 향상시킵니다. Copy-Paste를 직역하면 복사-붙여넣기입니다. 논문에서는 이미지의 객체를 복사하여 다른 이미지로 붙여넣기를 합니다. Casscade Eff-B7 Nas-FPN 모델에 Copy-Paste augmentation을 적용하여 segmentation 분야에서 2020년 SOTA를 달성합니다.

 

 논문에서 제안하는 Copy-Paste는 large scale jittering과 Noisy Student의 self training을 함께 사용하여 큰 성능 향상을 보여줍니다.

 

Method

 

  무작위로 두 개의 이미지를 선택하고 random scale jittering과 rando horizontal flipping을 적용합니다. 그리고나서 선택된 두 개의 이미지 중 하나의 이미지에서 객체를 무작위로 선택하고 다른 이미지에 붙여넣습니다. 마지막으로 grounth-truth를 수정합니다. scale jittering에의해 완전히 가려진 mask는 제거하고 부분적으로 가려진 객체는 mask를 갱신합니다.

 

 copy된 object를 target image에 paste 하는 방법입니다. pasted object의 binary mask($\alpha$)를 사용하여 새로운 이미지를 계산합니다.

 

 

binary mask($\alpha$)는 0 또는 1의 값을 갖고 있는데, pasted object가 존재하는 pixel 위치에 1의 값을 갖습니다. 따라서 아래 수식대로 계산을 하면, binary mask에서 1의 값을 갖고 있는 pixel 위치가 target 위치로 paste 됩니다. 또한 pasted object의 경계를 부드럽게 하기 위해 $\alpha$에 가우시안 필터를 적용합니다. 하지만 이 방법은 성능 향상이 없다고 하네요 

 

 

 copy-paste와 함께 사용하는 augmentation 입니다. Standard Scale Jittering(SSJ)는 이미지를 0.8~1.25 범위로 resize crop을 합니다. Large Scale Jittering(LSJ)은 이미지를 0.1~2.0 범위로 resize crop 합니다. 원본 이미지보다 작아지면 gray pixel value로 pad 합니다.

 

 

LSJ를 copy-paste와 함께 사용할 때 더 큰 성능 향상을 보입니다. 하지만 더 오랜 기간 학습이 필요합니다.

 

 copy-paste를 self-training과 함께 사용합니다. self-training은 teacher model이 labeling한 pseudo labeled image로 student model을 학습시키는 것입니다. teach를 학습시킬 때 사용하는 original image와 student를 학습시킬 때 사용하는 pseudo image 모두 copy-pasted를 적용합니다. 

 

 

Experiment

 흥미로운 실험은 모델을 오랜 기간 학습시키는 경우에 pre-trained model을 사용하는 것보다 random initialization이 적용된 모델로 학습시키는 것이 더 성능이 뛰어납니다.

 

 copy-paste는 여러 모델에 적용 가능합니다.

 

 SSL 또는 LSJ를 mixup과 함께 사용하면 성능 향상이 미미하지만 copy-paste는 뛰어납니다.

 

 self-training을 하는 경우에 COCO image와 pseudo image 모두 copy-paste를 적용하는 것이 성능이 좋습니다.

 

 최신 모델과의 성능 비교입니다.

 

 long-tail dataset에도 좋은 성능을 보여줍니다.


참고 문헌

[1] https://arxiv.org/abs/2012.07177

반응형