반응형

데이터셋 5

[PyTorch] ShuffleSplit와 subset 함수를 사용하여 dataset 분할하기

안녕하세요! 이번 포스팅은 sklearn 패키지에서 제공하는 ShuffleSplit과 torch.utils.data의 Subset 함수를 사용하여 데이터셋을 분할하도록 하겠습니다. shufflesplit 함수는 데이터셋 인덱스를 무작위로 사전에 설정한 비율로 분할합니다. 즉, 4:1 로 분할하고 싶은 경우에 무작위 인덱스로 4:1 비율로 분할합니다. subset 함수로 데이터셋을 생성하면 부모 set이 업데이트(transformation)된 경우에 subset도 함께 업데이트 됩니다. 제가 사용하는 데이터셋은 999개의 이미지로 구성됩니다. train 0.8, test 0.2로 분할하겠습니다. # split the data into two groups # trian 0.8, test 0.2 from sk..

[PyTorch] VOC Segmentation 데이터셋 사용하기

안녕하세요, 이번 포스팅에서는 PyTorch에서 제공하는 VOC Segmentation dataset을 사용해보도록 하겠습니다. 우선 transformation을 정의하기 위한 albumentations 모듈을 설치합니다. !pip install -U albumentations 필요한 라이브러리를 import 합니다. from torchvision.datasets import VOCSegmentation from torchvision.transforms.functional import to_tensor, to_pil_image from PIL import Image import torch import numpy as np from skimage.segmentation import mark_boundari..

[PyTorch] ShuffleSplit와 subset 함수를 사용하여 dataset 분할하기

안녕하세요! 이번 포스팅은 sklearn 패키지에서 제공하는 ShuffleSplit과 torch.utils.data의 Subset 함수를 사용하여 데이터셋을 분할하도록 하겠습니다. shufflesplit 함수는 데이터셋 인덱스를 무작위로 사전에 설정한 비율로 분할합니다. 즉, 4:1 로 분할하고 싶은 경우에 무작위 인덱스로 4:1 비율로 분할합니다. subset 함수로 데이터셋을 생성하면 부모 set이 업데이트(transformation)된 경우에 subset도 함께 업데이트 됩니다. 제가 사용하는 데이터셋은 999개의 이미지로 구성됩니다. train 0.8, test 0.2로 분할하겠습니다. # split the data into two groups # trian 0.8, test 0.2 from sk..

[PyTorch] 이미지 픽셀의 평균, 표준편차를 계산하여 정규화하기

dataset에 있는 이미지의 평균과 표준편차를 계산하여 정규화(normalize) 해보겠습니다. 1. 데이터셋을 불러옵니다. 저는 torchvision에서 제공하는 STL-10 dataset을 사용했습니다. train dataset을 불러와서 train_ds에 저장합니다. # loading training data from torchvision import datasets import torchvision.transforms as transforms import os path2data = '/data' # if not exists the path, make the path if not os.path.exists(path2data): os.mkdir(path2data) data_transformer = ..

[PyTorch] dataset 분할하기

이번 포스팅에서는 10개의 카테고리을 지닌 데이터셋을 각 카테고리간 동일한 비율로 데이터를 갖도록 분리해보겠습니다. 사용하는 데이터셋은 STL-10 dataset입니다. STL-10 dataset은 10개의 카테고리로 이루어져 있으며, train과 test dataset을 제공합니다. val dataset을 제공하지 않기 때문에 test dataset을 분할하여 val dataset을 만들어보도록 하겠습니다. 작업 환경은 colab에서 진행했습니다. 분할에 이용하는 함수는 sklearn 모듈의 StratifiedShuffleSplit 함수입니다. STL-10 dataset 불러오기 파이토치의 torchvision 패키지에서 제공하는 STL-10 dataset을 불러옵니다. STL-10 dataset은 9..

반응형