기본적인 과정
- 데이터 전처리(Data Pre-Processing)
- 데이터를 가져오고, 데이터를 정리하며, 데이터를 훈련 셋(training set)과 테스트 셋(test set)으로 나눈다.
- 보통 데이터 셋의 20%는 테스트 셋, 80%는 트레인 셋으로 나눈다.
- 데이터를 가져오고, 데이터를 정리하며, 데이터를 훈련 셋(training set)과 테스트 셋(test set)으로 나눈다.
- 모델링(Modeling)
- 모델을 구축한 다음 모델을 교육하고 예측한다.
- 평가(Evaluation)
- 성능 지표를 계산해서 모델에 대한 평가를 내린다.
- 모델에 잘 맞는지, 데이터에 적합한지 아닌지 등을 평가한다.
피처 스케일링(Feature Scailing)
- 피처 스케일링은 항상 열에 적용된다.
- 정규화와 표준화라는 두 가지 주요 항목이 있다.
정규화(Normalization)
- 열 안의 최소 값을 가져다 열 안의 모든 값에서 최소값을 빼고, 최대값과 최소값의 차이로 나누는 과정을 가진다.
- 정규화의 결과로 0에서 1 사이의 값으로 조정된다.
- 이를 수식으로 나타내면 아래와 같다.
$$ X' = \frac{X-Xmin}{Xmax-Xmin}$$
표준화(Standardization)
- 평균을 빼서 표준 편차로 나누는 과정을 가진다.
- 표준화의 결과로 보통 -3과 3 사이의 값으로 조정되지만, 극단적인 값이나 이상값이 있는 경우 범위를 벗어나기도 한다.
- 이를 수식으로 나타내면 아래와 같다.
$$ X' = \frac{X-\mu }{\sigma } $$
'Machine Learning' 카테고리의 다른 글
데이터 전처리(Data Preprocessing) (0) | 2025.06.29 |
---|