본문 바로가기

~2023

[CV] 데이터를 학습 데이터와 검증 데이터로 분류하기 - train, validation

728x90
반응형

test 데이터셋으로 자주 활용해 정확도를 올리다보면 범용성 있는 모델이 만들어지지 않는다.

그래서 여러가지 이유가 있지만 위와 같은 이유로 검증 데이터(validation datas)를 만들어 학습 과정에서 제대로 학습이 됐는지 확인한다.

우리는 sklearn 라이브러리에 있는 train_test_split() 메소드를 이용해 학습 데이터에서 검증 데이터를 분리하겠다.

from sklearn.model_selection import train_test_split

train_test_split()을 import 하기 위해 다음과 같이 선언해준다.

그런 다음에 학습 데이터에서 분리를 해야 하는데 학습 데이터를 만드는 방법을 모르겠다면 링크에서 csv에 있는 데이터를 로드할 수 있다.

어쨋든 학습 데이터가 있다는 가정하에 validation을 학습 데이터에서 0.2만큼 분리해 사용하겠다.

train_images, val_images, train_labels, val_labels = train_test_split(train_images, train_labels, test_size=0.2, stratify=train_labels)

stratify로 train_labels를 지정해주면서 train_labels를 클래스 레이블로 사용한다.

 

 

 

 

 

728x90
반응형