반응형

분류 전체보기 823

[논문 읽기] DETR(2020), End-to-End Object Detection with Transformers

안녕하세요, 오늘 읽은 논문은 End-to-End Object Detection with Transformers 입니다. 해당 논문은 direct set prediction을 위한 transformer eocoder-decoder 구조와 set prediction을 위한 bipartite matching loss를 제안합니다. set prediction은 object detection 모델이 각 object에 대하여 set of bounding boxes와 category labels을 예측하는 task를 의미합니다. 기존 방법들은 이 set prediction은 proposals를 사용하여 간접적으로 문제를 해결해 왔습니다. 기존 object detection 성능은 (1) postprocessing ..

[논문 읽기] MoCov3(2021), An Empirical Study of Training Self-Supervised Vision Transformers

안녕하세요, 오늘 읽은 논문은 An Empirical Study of Training Self-Supervised Vision Transformers 입니다. 해당 논문은 MoCov1/2보다 좋은 성능을 갖는 MoCov3을 제안하고, 이 MoCov3을 Vision Transfermers(ViT)에 적용하는 실험을 합니다. CNN 구조에 SSL을 적용하는 많은 연구가 이루어져 있지만 ViT 모델에는 어떻게 self-supervised learning을 적용해야하는지에 대해 많은 연구가 이루어지지 않았습니다. 저자는 다양한 실험을 통해 self-supervised ViT의 효과를 조사합니다. 또한 기존 self-supervised transformer 보다 좋은 성능을 보여줍니다. 실험을 위해 batch s..

[논문 읽기] SimSiam(2020), Exploring Simple Siamese Represent

안녕하세요, 오늘 읽은 논문은 Exploring Simple Siamese Represent 입니다. 두 representation을 비교하기 위해 Siamese network 구조는 자연스러운 선택입니다. Siamese network는 모든 출력값이 상수로 무너지는 문제점이 존재하는데, 이 문제점을 해결하기 위해 많은 노력이 존재합니다. 예를 들어, SimCLR은 different image(negative pair)는 밀어내고 positive pair는 서로 당기도록 학습합니다. 해당 논문에서는 Siamese network의 출력값이 상수로 무너지는 문제점을 해결하기 위하여 (1) same encoder, (2) prediction MLP, (3) stop-gradient 방법을 제안합니다. 다른 방..

[논문 구현] MoCov2(2020) PyTorch 구현

안녕하세요, 이번 포스팅에서는 MoCov2를 Google Colab 환경에서 PyTorch로 구현해보도록 하겠습니다. 논문 리뷰와 전체 코드는 아래 주소에서 확인하실 수 있습니다. [논문 읽기] MoCov2(2020), Improved Baselines with Momentum Contrastive Learning 안녕하세요, 오늘 읽은 논문은 Improved Baselines with Mometum Contrastive Learning 입니다. 해당 논문은 MoCo v1에서 SimCLR의 두 가지 아이디어를 적용한 모델입니다. SimCLR은 contrastive learning.. deep-learning-study.tistory.com Seonghoon-Yu/MoCov2_Pytorch_tutorial..

논문 구현 2021.07.12

[논문 읽기] MoCov2(2020), Improved Baselines with Momentum Contrastive Learning

안녕하세요, 오늘 읽은 논문은 Improved Baselines with Mometum Contrastive Learning 입니다. 해당 논문은 MoCo v1에서 SimCLR의 두 가지 아이디어를 적용한 모델입니다. SimCLR은 contrastive learning에서 세 가지 핵심 요소를 제안하는데요, (1) 많은 negative sample을 사용하기 위한 large batch, longer training, (2) stronger augmentation(color distortion, random resize crop, blur), (3) MLP projection head 가 contrastive learning의 성능을 높일 수 있다는 것을 실험적으로 보여줍니다. MoCov2는 SimCLR에..

이미지 분류 신경망의 결과를 t-SNE 시각화하기

안녕하세요ㅎㅎ 이번 포스팅에서는 이미지 분류 task를 목적으로 학습된 신경망의 출력값을 t-SNE으로 시각화 해보겠습니다. 제가 학습한 모델은 STL-10 dataset에서 성능이 36% 밖에 안나오기 때문에, t-SNE 시각화 그림이 명확하지 않습니다. from sklearn.manifold import TSNE import seaborn as sns tsne = TSNE() # t-SNE 시각화 함수 정의 def plot_vecs_n_labels(v, labels, fname): fig = plt.figure(figsize = (10,10)) plt.axis('off') sns.set_style('darkgrid') sns.scatterplot(v[:,0], v[:,1], hue=labels, le..

[PyTorch] ShuffleSplit와 subset 함수를 사용하여 dataset 분할하기

안녕하세요! 이번 포스팅은 sklearn 패키지에서 제공하는 ShuffleSplit과 torch.utils.data의 Subset 함수를 사용하여 데이터셋을 분할하도록 하겠습니다. shufflesplit 함수는 데이터셋 인덱스를 무작위로 사전에 설정한 비율로 분할합니다. 즉, 4:1 로 분할하고 싶은 경우에 무작위 인덱스로 4:1 비율로 분할합니다. subset 함수로 데이터셋을 생성하면 부모 set이 업데이트(transformation)된 경우에 subset도 함께 업데이트 됩니다. 제가 사용하는 데이터셋은 999개의 이미지로 구성됩니다. train 0.8, test 0.2로 분할하겠습니다. # split the data into two groups # trian 0.8, test 0.2 from sk..

[벡터 미적분학] 해시안(Hessian)

해시안(Hessian) 일변수함수에서 임계점 중 극점이 되는 판별법은 f''(x0) > 0 이면 극대점, f''(x0) < 0 이면 극소점 입니다. 하지만 다변수함수에서 이계편도함수(second derivative)는 상당히 복잡합니다. 이를 위해 헤시안(Hessian)이라고 불리는 이계편도함수의 표현법을 소개하겠습니다. 이 해시안은 이차 함수(Quadratic function)과 관련이 있습니다. 다음과 같이 표현되는 경우에 이차 함수(Quadratic function)라고 합니다. 이를 행렬의 곱으로 나타내면 다음과 같습니다. 만약 3개의 변수를 받는 경우, n =3은 다음과 같습니다. 이것을 이차 함수(quadratic function)이라고 합니다. [aij]는 대칭 행렬이라고 가정합니다. 이제 ..

[논문 읽기] YOLOr(2021), You Only Learn One Representation: Unified Network for Multiple Tasks

안녕하세요, 오늘 읽은 논문은 YOLOr, You Only Learn One Representation: Unified Network for Multiple Tasks 입니다. 해당 논문은 explicit knowledge와 implicit knowledge를 함께 사용하여 예측하는 모델을 제안합니다. 사람은 촉각, 시각, 청각과 과거의 경험을 통해 세상을 이해합니다. 사람의 경험은 일반적인 학습(explicit knowledge) 또는 subconsciously(implicit knowledge)에 의해 학습합니다. 그리고 이 두 경험은 뇌에 저장되고, 이 경험을 결합하여 이전에 보지 않았던 상황을 예측합니다. 위 강아지 그림을 보고 사람은 두 가지 경험을 활용하여 여러 질문에 답변할 수 있습니다. 저..

반응형