논문 읽기/Self-Supervised

[논문 읽기] SimSiam(2020), Exploring Simple Siamese Represent

AI 꿈나무 2021. 7. 12. 20:57
반응형

 안녕하세요, 오늘 읽은 논문은 Exploring Simple Siamese Represent 입니다.

 

 두 representation을 비교하기 위해 Siamese network 구조는 자연스러운 선택입니다. Siamese network는 모든 출력값이 상수로 무너지는 문제점이 존재하는데, 이 문제점을 해결하기 위해 많은 노력이 존재합니다. 예를 들어, SimCLR은 different image(negative pair)는 밀어내고 positive pair는 서로 당기도록 학습합니다. 

 

 

 해당 논문에서는 Siamese network의 출력값이 상수로 무너지는 문제점을 해결하기 위하여 (1) same encoder, (2) prediction MLP, (3) stop-gradient 방법을 제안합니다. 다른 방법에서 자주 사용하는 negative pairs와 momentum encoder 방법을 사용하지 않고도 문제점을 해결하며 뛰어난 성능을 보여줍니다.

 

Method

 

 하나의 이미지로부터 augmentation을 두 번 적용하여 두 개의 augmented image를 생성합니다. 두 이미지를 encoder에 전달하여 얻은 출력값을 z1, z2 이라고 하고 z1,z2를 prediction MLP에 전달하여 얻은 출력값은 p1, p2 입니다. 이 z1, z2, p1, p2를 사용하여 Loss를 계산합니다.

 

 loss는 negative cosine similarity를 사용합니다.

 

 

 여기에 symemetric 속성을 부여하기 위해 다음과 같이 loss를 설계합니다.

 

 

 위 Loss를 최소화하는 값은 -1 입니다. 해당 논문에서 핵심 아이디어는 Stopgrad 입니다. z2와 z1 변수에대하여 gradient를 계산하지 않도록 .detach(pytorch 명령어)를 해줍니다.

 

 

 

 x1에 대한 encoder는 z1로부터 gradient를 전달받지 않고, x2에 대한 encoder는 z2에대해 gradient를 전달받지 않습니다. 

 

 해당 논문에서 사용하는 encoder은 resnet50을 사용하며 마지막에 projection MLP를 부착합니다. 이 MLP는 3개의 layer를 갖고 있습니다. 활성화함수로 relu를 사용하며 hidden layer와 projection output에 bn을 사용합니다.

 

 encoder 출력값이 전달되는 prediction MLP는 2개의 layer로 이루어져 있습니다. hidden layer에 relu, bn을 사용합니다.

 

Experiment

 stop-gradient 유무에 따른 실험 결과입니다. stop-gradient가 없는 경우에 모델 loss가 빠르기 -1로 수렴하는 것으로 확인할 수 있습니다. 이는 모델의 출력값이 상수 벡터라는 것을 의미합니다. 이 상수 벡터의 std를 계산하면 0이 나오는데, 실제로 std 계산 결과 0이 나옵니다.

 

 

 prediction MLP의 유무에 따른 실험 결과입니다. prediction MLP가 없는 경우에 모델이 수렴하지 않고, loss는 높은 값이 유지됩니다. 또한 이 prediction MLP와 constant learning rate가 더 나은 결과를 갖는다고 실험적으로 발견합니다.

 

 batch size에 따른 실험 결과입니다. SimCLR와 SwAV 모두 large batch(4096)이 필요하는 것과 반대의 결과를 보여줍니다.

 

 MLP head에 BN 유무 실험입니다. 

 

 loss function에 사용하는 cosine similarity 대신에 다른 것을 사용한 실험 결과입니다. 또한 loss function에 symmetric 성질 유무에 대한 실험도 진행합니다.

 

 

 

 다른 방법과의 비교입니다.

 


참고자료

[1] https://arxiv.org/pdf/2011.10566.pdf

반응형