반응형

분류 전체보기 823

[논문 읽기] Swin Transforemr(2021), Hierarchical Vision Transformer using Shifted Windows

안녕하세요, 오늘 읽은 논문은 Swin Transformer: Hierarchical VIsion Transformer using Shifted Windows 입니다. Swin Transformer는 transformer 구조를 object detection에 적용한 모델입니다. text에 비해서 image는 어떻게 patch로 분할하느냐에 따라서 엄청나게 다양한 variant가 존재하고 이미지들의 resolution이 크다는 차이점이 있습니다. 이 차이첨을 다루기 위해 Sfited Windows를 사용하여 hierarchical transformer로 representation을 학습합니다. shifted window를 활용한 hierarchical transformer는 어떤 장점이 있을까요? 바로 ..

[논문 읽기] Group Normalization(2018)

안녕하세요, 오늘 읽은 논문은 Group Normalization 입니다. GN(Group Normalization)은 BN의 단점을 개선하기 위해 제안된 alternative입니다. BN은 batch size(1or2)를 작게 설정한 경우에 상당한 성능 약화가 발생합니다. OD나 Segmentation 같은 task 경우에 high-resolution image를 사용해야 하므로 batch-size를 작게 설정할 수 밖에 없습니다. 이 경우에 batch 통계값은 전체 분포를 부정확하게 추정하여 noise가 많이 생기고 성능 저하가 발생합니다. 이러한 BN의 단점을 개선하기 위하여 GN은 batch와 독립적으로 normalization을 수행합니다. 위 그림을 살펴보면 batch size가 2인 경우에 ..

[논문 읽기] Contrastive Loss(2006), Dimensionality Redution by Learning an Invariant Mapping

안녕하세요, 오늘 읽은 논문은 Dimensionality Reduction by Learning an Invariant Mapping 입니다. 해당 논문에서는 최초로 Contrastive Loss를 제안합니다. Contrastive Loss는 차원 축소를 수행하는 함수를 만들기 위해 제안되었습니다. 차원 축소는 고차원의 입력 데이터를 저차원의 매니폴드로 map하는 것입니다. 동일한 종류의 입력 데이터를 차원 축소하면 이 둘은 매니폴드 상에 근처의 점으로 map 됩니다. 기존의 차원 축소 방법(PCA, LLE)들은 새로운 데이터가 입력되면 차원 축소를 위해 전체 데이터셋에 대해 계산을 해야합니다. 또한 function이 아닙니다. 논문에서는 training sample사이에 이웃 관계를 활용하여 저차원 매..

[논문 읽기] Big Transfer(BiT, 2019), General Visual Representation Learning

안녕하세요, 오늘 읽은 논문은 Big Transfer(BiT): General Visual Representation Learning 입니다. BiT는 large supervised dataset에 대하여 pre-training을 한 뒤에 target task에 모델을 fine-tunning합니다. 300M 이미지를 갖고 있는 JFT dataset으로 pre-training 하고, 20개 dataset에 대해 fine-tunning하여 강력한 성능을 나타냅니다. 즉, 엄청난 크기의 dataset으로 학습된 모델을 여러 task에 transfer 합니다. Big Transfer (1) Upstream Pre-Training pre-training에서 dataset size, 모델 size가 미치는 역할을 ..

[논문 읽기] Colorful Image Colorization(2016)

안녕하세요, 오늘 읽은 논문은 Colorful Image Colorization 입니다. 해당 논문은 gray scale image를 입력받아 colorization을 합니다. lightness channel L이 주어지면, 모델은 그에 해당하는 color channels인 a와 b를 예측합니다. 색상은 CIE Lab colorspace를 사용합니다. 저자의 목적은 ground-truth와 동일한 colorization이 아니라, 사람을 속일 수 있는 colorization입니다. 저자는 colorization이 multimodal task라고 말합니다. 많은 객체들은 하나의 색상을 갖고 있는 것이 아니라, 여러 색상이 될 수 있습니다. 예를 들어, 사과는 항상 빨강색이 아니라 초록색, 노랑색 사과일 수..

[벡터 미적분학] 반복 편도 함수, 혼합 편도 함수의 교환법칙(iterated partial derivatives, equality of mixed partials)

반복 편도 함수(Iterated partial derivatives) 편미분이 존재하고, 이 편미분이 연속적인 경우에 이 함수를 class C1이라고 합니다. 만약 이 각각의 편도 함수가 다시 연속적인 편도 함수를 갖고 있다면 class C2라고 합니다. 계속 확장하여 함수는 class C3, class C4 라고 불릴 수 있습니다. 만약, 함수 f가 연속적인 3차 반복 편도 함수를 갖고 있다면 이는 class C3 입니다. 여기서 이계편도함수의 몇 가지 예제를 살펴보겠습니다. 삼계도함수나 고계도함수도 같은 방법으로 나타낼 수 있습니다. f가 두 변수 x와 y의 함수이고, 편미분이 연속적으로 미분가능하면 이 함수의 편도함수는 다음과 같은 네 개의 함수를 얻습니다. 이 네개를 반복 편도함수(iterated..

[논문 읽기] MLP-Mixer(2021), An all-MLP Architecture for Vision

안녕하세요, 오늘 읽은 논문은 MLP-Mixer, An all-MLP Architecture for Vision 입니다. MLP-Mixer는 오직 MLP만을 사용합니다. MLP-Mixer는 두 타입의 레이어가 존재하는데, 하나는 channel-mixing MLP, 다른 하나는 token-mixing MLP 입니다. 이 두 타입의 레이어 블록을 반복적으로 적용합니다. channel-mixing MLP는 Xception에서 제안하는 1x1 conv로 채널간 연산을 수행하는 point-wise conv로 생각해볼 수 있습니다. 즉, CNN의 특별한 경우와 동일한 역할을 수행합니다. token-mixing MLP는 독립적인 채널에 1x1 conv를 spatial 에만 적용하는 depth-wise conv로 생각..

[논문 읽기] Jigsaw Puzzles(2016), Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

안녕하세요, 오늘 읽은 논문은 Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles 입니다. 논문은 self-supervision 원리를 따르며 pretext task로써 Jigsaw puzzle을 풀기 위해 CNN을 학습시킵니다. Jigsaw puzzle을 풀면서 학습된 특징들을 transfer learning을 하여 classification, detection task에서 성능을 측정합니다. ImageNet으로 학습된 모델보다 성능은 뒤떨어지지만, Jigsaw 퍼즐 문제를 풀면서 학습된 특징들이 classification과 object detection 문제에서 유의미한 정보를 갖고 있다는 것을 보여줍니다. Solving..

반응형