반응형
Contrastive Multiview Coding
Yonglong Tian, Dilip Krishnan, Phillip Isola, arXiv 2019
PDF, SSL By SeonghoonYu August 6th, 2021
Summary
논문 제목 그대로 multiview 간의 상호 정보량을 최대화하여 학습합니다. 한 이미지내의 multiview는 밝기, 색상, 뎁스, 옵티컬 플로우가 될 수 있습니다. classification의 경우에 이미지 색상 공간을 Y, ab 변환하여 동일 이미지의 Y와 ab는 positive, 다른 이미지의 ab는 negative로 NCE Loss를 최소화하여 학습합니다. 이외에도 추가적인 view로 depth를 사용할 수 있습니다. view 개수와 동일한 encoder 개수를 사용하며 각 encdoer의 파라미터는 각각 학습합니다.
논문의 핵심 아이디어는 다양한 view의 상호 정보량을 학습하여 noise를 최소화하고 객체를 인식할 수 있는 representation을 학습하는 것입니다.
여러 view를 사용하는 경우에 (a) 처럼 core view를 선정하여 anchor로 사용해 anchor와 다른 view 사이의 loss를 계산하는 방법과 (b) 처럼 조합으로 모든 view 사이의 loss를 계산하는 방법이 있습니다. (b) 방법이 각 view 사이에 공유하는 정보를 학습하므로 성능이 더 뛰어납니다.
M은 Multi view의 수 입니다.
Experiment
What I like about the paper
- 이미지에 augmentation을 적용하는 대신에 한 이미지의 Multi view를 사용하여 NCE Loss를 사용.
my github about what i read
반응형