반응형

논문 읽기/Classification 50

Classification에서 MSE(mean square error) vs Cross-Entropy

Evaluation of Neural Architectures Trained with Square Loss vs Cross-Entropy in Classification Tasks https://arxiv.org/abs/2006.07322 Evaluation of Neural Architectures Trained with Square Loss vs Cross-Entropy in Classification Tasks Modern neural architectures for classification tasks are trained using the cross-entropy loss, which is widely believed to be empirically superior to the square lo..

[논문 읽기] Conformer(2021), Local Features Coupling Global Representations for Visual Recognition

Conformer: Local Features Coupling Global Representations for Visual Recognition PDF, Classification TF, Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, ICCV 2021 Summary CNN은 local feature에 특화되어 있고 transformer는 global representation에 특화되어 있는데, 각각의 출력값을 Feature Coupling Unit(FCU)로 fuse 한다. 그러면 CNN에 global representation을 주입할 수 있고, transformer에 local feature을 주입할 수 있다. CNN은 local f..

[논문 읽기] CMT(2021), Convolutional Neural Networks Meet Vision Transformers

CMT: Convolutional Neural Networks Meet Vision Transformers PDF, Vision Transformer, Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing, Yunhe Wang, arXiv 2021 Summary CMT는 ViT에 CNN 구조를 추가하여 성능을 개선한 모델입니다. long-dependency 정보를 포착하는데 특화되어 있는 ViT와 local feature을 modeling 하는데에 장점이 있는 CNN 구조를 결합하면 더 좋은 성능을 보여줄 수 있다는 것을 보여줍니다. 현재 ViT를 scaling up하여 SOTA 성능을 기록하고 있는 ViT-G를 제외하고, CMT는 동일한 파라미터..

[논문 읽기] Scaling Vision Transformers(2021)

Scaling Vision Transformers PDF, Vision Transformer, Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer arXiv 2021 Summary 2 bilion 파라미터를 가진 ViT-G 모델을 학습하여 90.45% SOTA 성능을 달성합니다. 논문에서 여러가지 실험 결과를 보여줍니다. 인상 깊었던 몇 가지를 살펴보겠습니다. 모델 size와 data size 사이의 관계를 실험합니다. 이는 직관과 동일한 실험 결과를 도출합니다. model size와 data size이 클수록 좋은 성능을 달성합니다. downstream task에 trasnfer learning을 진행할 때, ViT에서 예측을 수행하는 head..

[논문 읽기] BoTNet(2021), Bottleneck Transformers for Visual Recognition

Bottleneck Transformers for Visual Recognition Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pierer Abbeel, Ashish Vaswani, arXiv 2021 PDF, Classifiction By SeonghoonYu August 10th, 2021 Summary ResNet의 마지막 stage의 BottleNeck 구조에서 3x3 Conv를 Multi-Head Attention으로 대채합니다. Multi-Head Attention은 down-sampling 기능이 없으므로 stage 앞에 2x2 average pooling with stride 2를 사용하여 down sampling을 수행합..

[논문 읽기] Early Convolutions Help Transformers See Better(2021)

Early Convolutions Help Transformers See Better Tate Xiao, Mannat Singh, Eric Mintum, Trevor Darrell, Piotr Dollar, Ross Girschick, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 9th, 2021 Summary ViT는 Optimization에 민감합니다. 느린 수렴속도, Optimizer SGD를 사용하면 수렴이 안되고 lr 또는 weight decay 계수에도 민감합니다. 또한 ImageNet 에서 CNN의 성능을 뛰어넘지 못합니다. 저자는 ViT가 Optimization에 민감한 이유가 ViT의 초기 image를 patch 단위로 자를 때 사..

[논문 읽기] CvT(2021), Introducing Convolutions to Vision Transformers

CvT: Introducing Convolutions to Vision Trnasformers Haiping Wu, Bin Xiao, Noel Codella, Mencgen Liu, Xiyang Dai Lu, Yuan Lei Zhang, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 8th, 2021 Summary CvT는 기존 CNN 구조에서 활용하는 계증 구조(hierarchical architecture)를 ViT에 적용한 논문입니다. 계층 구조를 형성할 수 있다면 low-layer에는 edge와 같은 low-level feature를 학습하고 높은 layer에서는 high-level feature을 학습할 것입니다. Vision Transfo..

[Paper Review] CeiT(2021), Incorporating Convolution Designs into Visual Transformers

Incorporating Convolution Designs into Visual Transformers Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou Fengwei Yu, Wei Wu, arXiv 2021 PDF, Transformer By SeonghoonYu August 5th, 2021 Summary CeiT is architecture that combines the advantages of CNNs in extracting low-level features, strengthening locality, and the advantages of Transformers in establishing long-range dependencies. ViT has two p..

[논문 읽기] Deit(2020), Training data-efficient image transformers & distillation through attention

Training data-efficient image transformers & distillation through attention Hugo Touvron, Matthieu Cord, Matthijs Douze, arXiv 2020 PDF, Classification By SeonghoonYu August 4th, 2021 Summary Deit는 ViT에 distillation token을 추가하여 Knowledge distillation을 적용한 논문입니다. Deit is the model which apply Knowledge distillation to ViT by adding a distillation token to ViT. class token에 head를 적용하여 얻은 확률은 Cross..

[논문 읽기] Non-local Neural Networks(2017)

안녕하세요, 오늘 읽은 논문은 Non-local Neural Networks 입니다. deep neural network에서 long-range dependency를 포착하는 것은 매우 중요합니다. 예를 들어, language 모델에서 long-range deprendency를 포착하기 위해 LSTM을 하용하고, image data에서는 convolutional layer를 쌓아 receptive field를 확장하여 long-range depencdency를 포착합니다. convolution과 recurrent operation은 공간 또는 시간에 대한 local neighborhood에 연산을 수행합니다. 그리고 이 local operation을 반복적으로 수행하는데 이는 다음과 같은 문제점을 초래합..

반응형