논문 읽기/Classification

[논문 읽기] Meta Pseudo Labels(2020)

AI 꿈나무 2021. 3. 29. 15:27
반응형

 안녕하세요! 이번에 읽어볼 논문은 현재, Classification 분야에서 SOTA를 차지하고 있는 Meta Pseudo Labels 입니다.

 

 Meta Pseudo Labels는 semi-supervised learning 기법으로 SOTA를 달성했습니다.

 

 

Noisy Student에서의 단점을 개선했는데요. Noisy Student가 무엇인지 살펴보겠습니다.

 

Noisy Student

Noisy Student

 Noisy Student에는 labeled image로 teacher를 학습시키고, teacher로 unlabeled image에 대한 pseudo label를 생성합니다. teacher로 생성한 pseudo labeled image와 labeled image로 student를 학습합니다. 이 student를 teacher로 사용하여 다시 pseudo label을 생성합니다. 그리고 새로운 student은 새로운 pseudo labeled image와 labeled image로 학습을 합니다. 이 과정이 반복되면서 Student는 teacher보다 나은 일반화된 성능을 얻게 됩니다. 그리고 Noisy student의 핵심은 dropout, random augmentation, stochastic depth 를 활용하여 student에 noise를 추가한 것이었습니다.

 

 이 Noist Studet의 단점은 teacher가 생성한 pseudo label이 정확하지 않으면, student가 정확하지 않은 데이터로 학습된다는 것입니다. 따라서 teacher보다 더 좋은 성능을 얻을 수 없게 됩니다. 이 단점을 개선하기 위해서 Meta Pseudo Labels는 teacher와 student를 동시에 학습합니다. 

 

Meta Pseudo Labels

왼쪽: Pseudo labels, 오른쪽: Meta Pseudo labels

 Meta Pseudo Labels는 teacher와 student를 동시에 학습합니다. student가 학습되는 동안에, labeled image에 대한 student의 성능이 teacher에게 reward로 전달됩니다. 그리고 이것을 loss 함수의 파라미터로 활용합니다. 따라서 teacher은 더 나은 pseudo label을 생성할 수 있게 됩니다. 다시 정리하면 (1) student는 teacher에서 생성된 pseudo labeled data로 학습을 하고, (2) teacher은 student가 labeled image에 대해 얼마나 잘 작동하는지의 reward signal로 학습합니다.

 

 teacher와 student를 동시에 학습하기 위해서 loss function을 수정합니다. 이부분은 이해가 잘 안되네요. UDA 손실함수에 대한 내용이 나오는데, UDA 논문을 읽어봐야 할 것 같습니다.

 

Small Scale Experiments

 Meta Pseudo의 효과를 확인하기 위해 TwoMoon dataset으로 실험을 합니다. TwoMoon dataset은 2000개의 example으로 이루어져 있으며 1000개의 cluster가 2개가 있습니다. 그리고 각 cluster에 3개의 labeled image가 존재하여 총 6개의 labeled image가 존재합니다.

 

 Supervised, Pseudo Labels, Meta Pseudo Labels 3가지 방법으로 TwoMoon dataset을 얼마나 잘 분류하는지 실험입니다.

 

Performance

 ImageNet에서 다른 모델과의 성능 비교입니다.

 


출처

[1] arxiv.org/abs/2003.10580

반응형