반응형
Evaluation of Neural Architectures Trained with Square Loss vs Cross-Entropy in Classification Tasks
https://arxiv.org/abs/2006.07322
ICLR 2021에 억셉된 페이퍼.
classification에서 cross-entropy를 사용하는 것은 standard이다.
왜 standard 일까? MSE를 사용해도 되지 않을까? 라는 의문에서 논문을 검색해봤고, 다행히도 classification task에서 MSE와 Cross-entropy를 비교하는 실험을 한 논문이 있었다.
다양한 task(NLP, Computer vision, Audio)와 다양한 dataset, 많은 모델에서 실험을 한다.
놀라운 점은 MSE를 사용했을 때가 성능이 높은 경우가 많다.
왜 그럴까?
이유에 대해 별다른 설명이 없다.
반응형