반응형

분류 전체보기 823

[논문 읽기] CMT(2021), Convolutional Neural Networks Meet Vision Transformers

CMT: Convolutional Neural Networks Meet Vision Transformers PDF, Vision Transformer, Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing, Yunhe Wang, arXiv 2021 Summary CMT는 ViT에 CNN 구조를 추가하여 성능을 개선한 모델입니다. long-dependency 정보를 포착하는데 특화되어 있는 ViT와 local feature을 modeling 하는데에 장점이 있는 CNN 구조를 결합하면 더 좋은 성능을 보여줄 수 있다는 것을 보여줍니다. 현재 ViT를 scaling up하여 SOTA 성능을 기록하고 있는 ViT-G를 제외하고, CMT는 동일한 파라미터..

[논문 읽기] Scaling Vision Transformers(2021)

Scaling Vision Transformers PDF, Vision Transformer, Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer arXiv 2021 Summary 2 bilion 파라미터를 가진 ViT-G 모델을 학습하여 90.45% SOTA 성능을 달성합니다. 논문에서 여러가지 실험 결과를 보여줍니다. 인상 깊었던 몇 가지를 살펴보겠습니다. 모델 size와 data size 사이의 관계를 실험합니다. 이는 직관과 동일한 실험 결과를 도출합니다. model size와 data size이 클수록 좋은 성능을 달성합니다. downstream task에 trasnfer learning을 진행할 때, ViT에서 예측을 수행하는 head..

[논문읽기] DINO(2021), Emerging Properties in Self-Supervised Vision Transformers

Emerging Properties in Self-Supervised Vision Transformers PDF, SSL, Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, Armand Joulin, arXiv 2021 Summary 위 영상은 DINO의 attention map을 보여줍니다. 정확히 객체에만 attention map이 활성화되어 있어 segmentation mask처럼 보입니다. 이처럼 SSL + ViT는 CNN이나 SL ViT에서 나타나지 않는 성질인 semantic segmentation에 대한 정보를 학습할 수 있다고 말합니다. 즉, classification model은 ..

[논문읽기] YOLOS(2021), You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection PDF, Object Detection, Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, arXiv 2021 Summary Vision Transformer(ViT)에 class token을 제거하고 Detection token(Det-Tok)을 추가하여 object detection task를 수행합니다. 즉, object detection task를 sequence-to-sequence 방식으로 해결하려 합니다. Dek-Tok는 100xD 차원의 랜덤 초기화 행렬을 사용하며 NxD 차원의 pat..

[논문 읽기] Deformable DETR(2020), Deformable Transformers for End-to-End Object Detection

Deformable DETR: Deformable Transformers for End-to-End Object Detection PDF, Object Detection, Xizhou Zhu, Weije Su, Lewei Lu, Xiaogang Wang, Jifeng Dai, arXiv 2020 Summary DETR의 문제점을 개선한 Deformable DETR 입니다. DETR은 (1) 수렴속도가 느리고 (2) 작은 물체에 대해서 낮은 성능을 갖습니다. 수렴속도가 느린 이유는 학습 초기에 attention weight이 모든 픽셀에 대하여 평균값을 갖고 학습이 진행되면서 attention map은 sparse값을 갖습니다. 이 과정에서 어려움을 겪기 때문입니다. 작은 물체에 대해서 낮은 성능을 갖는 ..

[논문 읽기] Delving Deep into the Generalization of Vision Transformers under Distribution Shifts(2021)

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts Chongzhi Zhang, Mingyuan Zhang, Shuanghang Zhang, arXiv 2021 PDF, Vision Transformer By SeonghoonYu July 15th, 2021 Summary 현실 세계 데이터는 ImageNet과 같이 잘 정제된 데이터가 아닌 Out-of-distribution data인 경우가 많습니다. 논문 저자는 ViT가 OOD에서의 generalization 능력을 CNN 모델과 비교하여 연구합니다. 결론먼저 말하면 (1) ViT가 CNN보다 OOD data에 generalization 능력이 뛰어납..

카테고리 없음 2021.08.12

[영작] Day 06

http://www.mykoen.com/index.php 혼자서 깨치는 영작문 :: 마이코엔 www.mykoen.com 1. 가족 친구들과 안전하고 건강한 관계를 형성하세요. Build safe and healthy relationships with family and friends. 2. 학생들은 교실에 있습니다. Students are in the classroom. 3. 미안합니다! 당신을 다치게 하려고 한 것은 아니었습니다. I'm sorry! I didn't mean to hurt you 4. 지하 전기철도 시스테은 지역에 따라 subway, underground railway, tube, metro 등으로 불린다. Depending on where in the world it is locate..

[논문 읽기] PCL(2020), Prototypical Contrastive Learning of Unsupervised Representations

Prototypical Contrastive Learning of Unsupervised Representations Junnan Li, Pan Zhou, Caiming Xiong, Steven C.H Hoi, arXiv 2020 PDF, SSL By SeonghoonYu August 11th, 2021 Summary Clustering + NCE Loss 를 결합하여 self-supervised learning을 수행합니다. 기존의 contrastive learning의 문제점은 instance discrimination을 수행하기 때문에 비슷한 특징을 지닌 instance들을 negative로 정의하여 서로 밀어냈었습니다. 즉, low-level semantics를 포착하여 discriminative..

[논문 읽기] BoTNet(2021), Bottleneck Transformers for Visual Recognition

Bottleneck Transformers for Visual Recognition Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pierer Abbeel, Ashish Vaswani, arXiv 2021 PDF, Classifiction By SeonghoonYu August 10th, 2021 Summary ResNet의 마지막 stage의 BottleNeck 구조에서 3x3 Conv를 Multi-Head Attention으로 대채합니다. Multi-Head Attention은 down-sampling 기능이 없으므로 stage 앞에 2x2 average pooling with stride 2를 사용하여 down sampling을 수행합..

[영작] Day 05

http://www.mykoen.com/ 혼자서 깨치는 영작문 :: 마이코엔 www.mykoen.com 1. 기분이 조금 나으세요? Are you feeling better?a 2. 신경 수용체는 정보를 받아들여 그것을 뇌로 보냅니다. Nerve receptors receive information and send it to the brain. 3. 프로그램은 아직도 개발단계에 있습니다. The program is still in the development stages. 4. 우리 엄마가 그녀의 사무실에서 당신을 지금 당장 보자고 하세요. My mom wants to see you in her office now. 5. 응시자가 마치려면 약 30분이 걸립니다. It will take a candidat..

반응형