수학/딥러닝 이론

왜 Vision Transformer가 좋은 성능을 보일까요?

AI 꿈나무 2021. 8. 5. 13:49
반응형

https://towardsdatascience.com/recent-developments-and-views-on-computer-vision-x-transformer-ed32a2c72654

 

Recent Developments and Views on Computer Vision x Transformer

On the differences between Transformer and CNN, why Transformer matters, and what its weaknesses are.

towardsdatascience.com

 

 위 게시글을 번역했습니다.

 

Why is Vision Transformer so accurate?

 Vision Transformer의 연구는 오랫동안 지속되어 왔는데요. 하지만 아직 ImageNEt에서 SOTA 성능을 달성하지 못하고 있습니다. 위 게시글의 저자는 이 이유를 모델의 inductive bias와 number of data의 관점에서 설명합니다.

 

 

 Inductive bias는 모델이 데이터에 대해 갖고 있는 가정입니다. 예를 들어, CNN은 3x3 kernel로 데이터를 처리하며 데이터 정보를 locally aggregate 합니다. RNN에서는 현재 time의 data는 이전 time의 data와 강하게 correlated 되어 있습니다. Transformer에서 사용하는 self-attention은 각 데이터에 대해서만 correlate되어 있으므로 CNN과 RNN에 비하여 inductive bias가 상대적으로 낮다고 말할 수 있습니다.

 

 ViT의 저자는 데이터 수가 적은 상황에서 강한 inductive bias를 지닌 모델이 데이터에 대해 가정을 갖고 있기 때문에 약한 inductive bias를 지닌 모델보다 높은 성능을 보인다고 말합니다. 하지만 데이터가 많은 상황에서는 이 강한 inductive bias가 오히려 방해물이 됩니다. 즉, ViT는 데이터가 많은 상황에서 CNN을 능가하는 성능을 보입니다.

 

반응형