반응형

classification 23

Classification에서 MSE(mean square error) vs Cross-Entropy

Evaluation of Neural Architectures Trained with Square Loss vs Cross-Entropy in Classification Tasks https://arxiv.org/abs/2006.07322 Evaluation of Neural Architectures Trained with Square Loss vs Cross-Entropy in Classification Tasks Modern neural architectures for classification tasks are trained using the cross-entropy loss, which is widely believed to be empirically superior to the square lo..

[논문 읽기] Big Transfer(BiT, 2019), General Visual Representation Learning

안녕하세요, 오늘 읽은 논문은 Big Transfer(BiT): General Visual Representation Learning 입니다. BiT는 large supervised dataset에 대하여 pre-training을 한 뒤에 target task에 모델을 fine-tunning합니다. 300M 이미지를 갖고 있는 JFT dataset으로 pre-training 하고, 20개 dataset에 대해 fine-tunning하여 강력한 성능을 나타냅니다. 즉, 엄청난 크기의 dataset으로 학습된 모델을 여러 task에 transfer 합니다. Big Transfer (1) Upstream Pre-Training pre-training에서 dataset size, 모델 size가 미치는 역할을 ..

[논문 읽기] MLP-Mixer(2021), An all-MLP Architecture for Vision

안녕하세요, 오늘 읽은 논문은 MLP-Mixer, An all-MLP Architecture for Vision 입니다. MLP-Mixer는 오직 MLP만을 사용합니다. MLP-Mixer는 두 타입의 레이어가 존재하는데, 하나는 channel-mixing MLP, 다른 하나는 token-mixing MLP 입니다. 이 두 타입의 레이어 블록을 반복적으로 적용합니다. channel-mixing MLP는 Xception에서 제안하는 1x1 conv로 채널간 연산을 수행하는 point-wise conv로 생각해볼 수 있습니다. 즉, CNN의 특별한 경우와 동일한 역할을 수행합니다. token-mixing MLP는 독립적인 채널에 1x1 conv를 spatial 에만 적용하는 depth-wise conv로 생각..

[논문 읽기] Vision Transformer(ViT, 2020), An Image is Worth 16x16 Words, Transformers for Image Recognition at Scale

안녕하세요, 오늘 읽은 논문은 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 입니다. 해당 논문은 transformer를 image patch의 sequence에 적용하여 classification을 수행합니다. transformer는 computational efficiency와 scalability한 속성을 갖고 있어 엄청난 크기의 파라미터를 가진 모델로 확장할 수 있습니다. 컴퓨터 비전에서도 이 transformer을 적용하여 VIT는 엄청난 크기의 데이터셋으로 학습하여 SOTA를 달성합니다. transformer를 computer vision에서 적용하기에 inductive bias를 갖고 있습니다. CNN은 ..

[논문 읽기] (2020) Noise or Signal: The Role of Image Backgrounds in Object Recognition

안녕하세요 ㅎㅎ!, 오늘 읽은 논문은 Noise or Signal: The Role of Image Backgrounds in Object Recognition 입니다. 해당 논문은 image classification 모델이 이미지 배경으로부터 오는 signal에 의존적인 정도를 실험합니다. 실험 결과를 잠깐 살펴보면, 모델은 객체 뿐만 아니라 배경에서도 정보를 얻어 객체를 분류합니다. 이미지에서 객체를 제거하고, 배경만 있는 dataset으로 학습 한 후 원래 dataset으로 test를 진행하면 모델이 40~50% 정도의 정확도를 보여줍니다. 또한, 객체와 배경이 서로 다른 class로 합성한 이미지로 test 한 경우에, 모델이 오분류를 합니다. 이는 모델이 배경에 depend 하다는 것을 보여줍..

[ISLR] Classification - Logistic Regression, LDA, QDA, KNN

Classification 분류는 범주형 자료를 다룹니다. 더미 변수를 활용하면 범주형 자료를 선형 회귀로도 풀 수 있지만, X의 범위가 제한되지 않고 Y값을 확률로 출력하지 않는 문제점이 있습니다. 1. 로지스틱 회귀(Logistic Regression) p(X) 확률을 logistic function을 사용합니다. 최대 가능도가 높은 값을 갖는 계수 B0, B1을 추정합니다. X가 2개 이상일 때는 다음과 같이 확장할 수 있습니다. 특징 결정 경계를 선형으로 예측합니다. X의 분포가 가우시안이 아닌 경우에 LDA보다 좋은 성능을 나타냅니다. 출력값을 확률로 나타낼 수 있습니다. Y가 2개 이상인 경우에 LDA를 주로 사용합니다. 2. 선형 판별 분석(LDA, Linear Discriminant Ana..

[논문 읽기] Bag of Tricks(2019) 리뷰, Bag of Tricks for Image Classification with Convolutional Networks

안녕하세요! 이번에 읽어볼 논문은 Bag of Tricks for Image Classification with Convolutional Networks 입니다. Bag of Tricks는 정확도를 높일 수 있는 여러 가지 학습 tricks를 소개합니다. 모델 구조를 변경하는 것이 아니라 tricks를 사용해서 성능을 높이는 것입니다. classification 분야를 공부하시는 분들이라면 이 논문에서 제시하는 방법들을 사용해보면 좋을 꺼 같네요ㅎㅎ 우선 결과부터 확인하겠습니다. ResNet-50에 tricks를 사용했더니 정확도가 75.3%에서 79.29%로 상승했네요. 어떤 tricks를 사용했는지 살펴보겠습니다. Large-batch training 큰 batch를 사용하면 gradient의 var..

[논문 읽기] EfficientNet(2019) 리뷰, Rethinking Model Scaling for Convolutional Neural Networks

안녕하세요! 이번에 읽어볼 논문은 EfficientNet, Rethinking Model Scaling for Convolutional Neural Networks 입니다. 모델의 정확도를 높일 때, 일반적으로 (1) 모델의 깊이, (2) 너비, (3) 입력 이미지의 크기를 조절합니다. 기존에는 이 세 가지를 수동으로 조절하였기 때문에, 최적의 성능과 효율을 얻지 못했습니다. EfficientNet은 3가지를 효율적으로 조절할 수 있는 compound scaling 방법을 제안합니다. 깊이, 너비, 입력 이미지 크기가 일정한 관계가 있다는 것을 실험적으로 찾아내고, 이 관계를 수식으로 만듭니다. Compound scaling 방법으로 NAS(neural architecture search) 구조를 수정하..

[논문 읽기] ShuffleNetV2(2018) 리뷰, Practical Guidelines for Efficient CNN Architecture Design

안녕하세요! 이번에 읽어볼 논문은 ShuffleNetV2 입니다. ShuffleNetV1의 후속작인데요. ShuffleNetV1은 제한된 연산량을 최대한 활용하기 위해 channel shuffle와 pointwise group convolution을 제안한 모델입니다. ShuffleNetV2은 연산량이 Inference 속도와 절대적인 관계가 없다고 합니다. 예를 들어, 모델이 가벼워도 실제 task에서 작동되는 속도는 느릴 수 있습니다. 따라서 연산량(FLOPs)가 아닌 inference speed에 집중을 합니다. 그리고, 모델의 Inference 속도를 향상시키는 4가지 가이드라인을 제시합니다. 가이드라인에 따라 구축한 모델이 ShuffleNetV2 입니다. 참고로 Inference 속도가 빨라야 ..

[논문 읽기] NasNet(2018) 리뷰, Learning Transferable Architectures for Scalable Image Recognition

이번에 읽어볼 논문은 NasNet, Learning Transferable Architectures for Scalabel Image Recognition 입니다. NasNet은 RNN을 활용하여 생성된 convolution block으로 구성되어 있습니다. 이와 대조적으로 ResNet, Inception, MobileNet 등등은 사람이 블락을 설계하고, 블락을 쌓아서 모델을 구축했었습니다. 대표적으로 ResNet은 residual block을 설계하고, 차곡차곡 쌓아서 ResNet을 구축했었죠. NasNet은 block을 사람이 설계하는 것이 아니라, 강화학습과 RNN을 활용하여 block을 설계한 것입니다! 그리고 NasNet은 당시 SOTA를 달성합니다. 딥러닝이 생성한 모델 구조가 사람이 설계한..

반응형