논문 읽기/Self-Supervised

[논문 읽기] Jigsaw Puzzles(2016), Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

AI 꿈나무 2021. 7. 1. 15:10
반응형

 안녕하세요, 오늘 읽은 논문은 Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles 입니다.

 

 

 논문은 self-supervision 원리를 따르며 pretext task로써 Jigsaw puzzle을 풀기 위해 CNN을 학습시킵니다. Jigsaw puzzle을 풀면서 학습된 특징들을 transfer learning을 하여 classification, detection task에서 성능을 측정합니다. ImageNet으로 학습된 모델보다 성능은 뒤떨어지지만, Jigsaw 퍼즐 문제를 풀면서 학습된 특징들이 classification과 object detection 문제에서 유의미한 정보를 갖고 있다는 것을 보여줍니다.

 

Solving Jigsaw Puzzles

 

 이미지에서 225x225크기로 random crop 합니다. 이것을 3x3 grid로 분할하면 각 grid는 75x75 pixel cellㅇ 됩니다. 각 9개의 75x75 cell 로부터 무작위로 64x64 pixel tile을 추출합니다. 이 9개의 tile들은 사전에 설계한 순열으로부터 무작위로 선정한 순열로 순서가 뒤바뀌어 CFN에 전달합니다. label로는 순열 정보 S = (3,1,2,9,5,4,8,7,6)을 사용합니다. CFN은 가중치를 공유하는 9개의 CNN으로 이루어져 있으며 각 CNN은 1개의 tile을 입력받습니다. CFN은 9개의 tile의 순서를 반환합니다.

 

 9개의 타일을 고려하면 총 9!=362,880개의 순열이 생성됩니다. 모든 순열을 다 학습할 수 없으므로 하나의 이미지당 69개의 순열을 사용합니다. 

 

 이렇게 학습된 CFN은 part의 상대적인 위치를 결정하기 위해 객체의 part apprearance 정보를 학습합니다. 하지만, CFN이 꼼수를 사용해 high-level이 아닌 low-level feature을 학습할 수 있습니다. 예를 들어, 모서리, 색상, 위치 등을 학습하여 tile 위치를 예측하는 것입니다. 이를 방지하기 위해 다음과 같은 방법을 사용합니다.

 

 모델이 low level statistics를 사용하지 않고, patch의 배열을 찾기 위해 각 patch를 독립적으로 평균, 표준편차 normalize를 합니다. 또한 각 patch 사이에 gap을 둡니다. 인접 patch끼리 연속성이 존재하기 때문에 gap을 둔다면 이를 방지할 수 있습니다. 이미지 중앙으로부터 경계로 갈수록 color channel간에 상대적인 공간 shift가 발생합니다. 이를 chromatic aberration이라고 합니다. 이를 방지하기 위해서 color와 grayscale 이미지 모두 학습합니다. 따라서 트레이닝셋을 컬러이미지와 흑백이미지로 구성합니다. 또한 color jitter을 사용합니다.

 

Experiment

 transfer learning의 결과입니다. ImageNet으로 supervision 학습한 모델보다 성능이 뒤떨어지지만, 간극을 좁힐 수 있었으며 다른 unsupervised learning 방법 중에서 sota를 달성합니다.

 


참고자료

[1] https://arxiv.org/pdf/1603.09246.pdf

반응형