본문 바로가기
IT,SW,Data,Cloud,코딩/Python

2023년6월6일 머신러닝 요약

by 착실하게 2023. 6. 6.
반응형

머신러닝 프로세스 

1) 문제 정의

2) 탐색적데이터분석 EDA

3) 데이터 전처리 - 결측치, 이상치 

4) 피처 엔지니어링 - 민맥스 스케일, 표준화, 라벨인코딩, 원핫인코딩, 피쳐선택 등 

5) 데이터 나누기 TRAIN/TEST/VALIDATION

6) 모델 (선택/훈련/평가/최적화)

7) 예측

8) CSV 파일 생성 

 

수치형 Numerical ~ 주로 민맥스 스케일, 표준화 수행함

1) 민맥스 스케일링 Min-Max Scaling: 0과1 사이의 값으로 만들기. = ( x - min(x) ) / ( max(x) - min(x) )

2) 표준화(StandardScaler) / Z-분포 :평균이 0 이고 표준편차가 1이 되게 만들기. = (x-mean(x)) / std(x) 

 

범주형 Categorical ~ 라벨인코딩, 원핫인코딩 

1) 라벨인코딩 : 주로 데이터와 카테고리가 많으면.

2) 원핫인코딩 : 주로 2~5개 정도일때. 

 

Data = Train + Test 

* Train = Train + Validation 

* Test = Test 

 

분류모델 vs 회귀 모델 

분류 모델 - RandomForest
- Decision Tree
- XGBoost
회귀 모델 - RandomForest
- Linear Regression 
- XGBoost 

 

모델 = 어떤 모델? 

model.fit() 학습하고 

model.predict() 예측하고 

 

 

반응형

댓글