반응형

분류 전체보기 823

[논문 읽기] Supervised Contrastive Learning(2020)

Supervised Contrastive Learning Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, arXiv 2020 PDF, Supervised Learning By SeonghoonYu August 10th, 2021 Summary Self supervised Learning에서 주로 사용하는 Contrastive Learning 방법을 Supervised Learning에 적용한 Loss를 제안합니다. 해당 Loss는 기존에 많이 사용하는 Cross-Entropy Loss의 성능을 능가합니다. Supervised Learning에 Contrastive Learning을 적용하면 동일 Class의 image를 positive sample로 사..

[논문 읽기] Early Convolutions Help Transformers See Better(2021)

Early Convolutions Help Transformers See Better Tate Xiao, Mannat Singh, Eric Mintum, Trevor Darrell, Piotr Dollar, Ross Girschick, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 9th, 2021 Summary ViT는 Optimization에 민감합니다. 느린 수렴속도, Optimizer SGD를 사용하면 수렴이 안되고 lr 또는 weight decay 계수에도 민감합니다. 또한 ImageNet 에서 CNN의 성능을 뛰어넘지 못합니다. 저자는 ViT가 Optimization에 민감한 이유가 ViT의 초기 image를 patch 단위로 자를 때 사..

[논문 읽기] AMDIM(2019), Learning Representations by Maximizing Mutual Information Across Views

Learning Representations by Maximizing Mutual Information Across Views Philip Bachman, R Devon Hjelm arXiv 2019 PDF, SSL By SeonghoonYu August 8th, 2021 Summary (1) 하나의 이미지에 random augmentation을 적용하여 두 개의 view (x1, x2) 를 생성합니다. (2) 각각을 encoder에 전달합니다. f(x1), f(x2) (3) f(x1), f(x2)의 feature map의 index 사이의 상호정보량을 계산합니다. feature map은 1-to-5, 1-to-7, 5-to-5 로 설정하며 index는 uniform하게 sample 합니다. Loss는 ..

[논문 읽기] CvT(2021), Introducing Convolutions to Vision Transformers

CvT: Introducing Convolutions to Vision Trnasformers Haiping Wu, Bin Xiao, Noel Codella, Mencgen Liu, Xiyang Dai Lu, Yuan Lei Zhang, arXiv 2021 PDF, Vision Transformer By SeonghoonYu August 8th, 2021 Summary CvT는 기존 CNN 구조에서 활용하는 계증 구조(hierarchical architecture)를 ViT에 적용한 논문입니다. 계층 구조를 형성할 수 있다면 low-layer에는 edge와 같은 low-level feature를 학습하고 높은 layer에서는 high-level feature을 학습할 것입니다. Vision Transfo..

[ISLR] K-평균 군집화(K-Means Clustering)

K-평균 군집화(K-Means Clustering) K-means clustering은 데이터 셋을 K개의 구별되고 겹치치 않는 cluster으로 분할하는 방법입니다. k-means clustering을 수행하기 위하여 cluster의 수 K를 정해야 합니다. 그리고나서 K-means algorithm은 각 관측값을 정확히 K개의 cluster 중 하나에 할당합니다. 아래 그림은 150개의 관측치로 구성된 데이터에 서로 다른 K값을 사용하여 K-means clustering을 수행한 결과입니다. K-means Clustering 절차 $C_1, ... C_K$를 각 cluster 내 관측치들의 인덱스들을 포함하는 집합이라고 하겠습니다. 이 집합은 두 가지 성질을 갖습니다. 1. 각 관측치는 적어도 K개 ..

[논문 읽기] Contrastive Multiview Coding

Contrastive Multiview Coding Yonglong Tian, Dilip Krishnan, Phillip Isola, arXiv 2019 PDF, SSL By SeonghoonYu August 6th, 2021 Summary 논문 제목 그대로 multiview 간의 상호 정보량을 최대화하여 학습합니다. 한 이미지내의 multiview는 밝기, 색상, 뎁스, 옵티컬 플로우가 될 수 있습니다. classification의 경우에 이미지 색상 공간을 Y, ab 변환하여 동일 이미지의 Y와 ab는 positive, 다른 이미지의 ab는 negative로 NCE Loss를 최소화하여 학습합니다. 이외에도 추가적인 view로 depth를 사용할 수 있습니다. view 개수와 동일한 encoder 개..

[영작] Day 04

http://www.mykoen.com/index.php 혼자서 깨치는 영작문 :: 마이코엔 www.mykoen.com 1. 모유는 아기에게 항생제를 전달합니다. A mother's milk passes antibodies on to her baby. 2. 다른 사람들이 먹을 것이 충분치 않을 때, 식량을 낭비하는 것은 죄악입니다. It is a sin to waste food when others do not have enough to eat. 3. 정줌함이 묻어나는 목소리로 말하세요. Speak in a tone of voice which is respectful. 4, 너희들을 외출 금지시켜 정말 미안하구나. I am really sorry I got you guys grounded. 5. 평화를 ..

[ISLR] 주성분 분석(PCA, Principal Components Analysis)

많은 수의 상관관계를 지닌 변수들이 존재하는 경우에 주성분 요소(Pricipal components)들은 적은 수로 변수들을 요약합니다. 따라서 주성분 요소를 활용하여 회귀를 진행하면 variance가 낮은 통계 모델을 얻을 수 있습니다. 이번 포스팅에서 공부할 주성분 분석(PCA)은 주성분 요소들을 계산하는 과정이며 주성분 요소들을 연속적으로 사용하여 데이터를 이해하는 과정입니다. 주성분 분석은 지도학습 문제에 사용하기 위한 파생 변수(derived variables)를 생성할 뿐만 아니라 데이터 시각화를 위한 도구로서 역할을 수행합니다. 주성분 분석(PCA, Principal Component Analysis) 탐색적 자료 분석(exploratory data analysis)로서 p개의 변수들에 대한..

[Paper Review] CeiT(2021), Incorporating Convolution Designs into Visual Transformers

Incorporating Convolution Designs into Visual Transformers Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou Fengwei Yu, Wei Wu, arXiv 2021 PDF, Transformer By SeonghoonYu August 5th, 2021 Summary CeiT is architecture that combines the advantages of CNNs in extracting low-level features, strengthening locality, and the advantages of Transformers in establishing long-range dependencies. ViT has two p..

분야별 Vision Transformer 논문 정리

나중에 읽으려고 정리한 논문들입니다. ㅎㅎ 필요하신 분이 계실수도 있으니 공유합니다. 댓글로 vision transformer 논문 추천해주셔도 됩니다 ㅎㅎ Transformer가 서로 다른 데이터 사이에도 적용할 수 있고 데이터 종류에 따라 구조를 변경하지 않아도 되는 장점을 활용한 여러 분야에서 논문들 DPN, depth estimation, https://arxiv.org/abs/2103.13413 Point Transformation, Point cloud https://arxiv.org/abs/2012.09164 Perceiver, audio, video, point clouds, image, https://arxiv.org/abs/2103.03206 UniT, Multimodal, https:..

반응형