반응형
머신러닝 프로세스
1) 문제 정의
2) 탐색적데이터분석 EDA
3) 데이터 전처리 - 결측치, 이상치
4) 피처 엔지니어링 - 민맥스 스케일, 표준화, 라벨인코딩, 원핫인코딩, 피쳐선택 등
5) 데이터 나누기 TRAIN/TEST/VALIDATION
6) 모델 (선택/훈련/평가/최적화)
7) 예측
8) CSV 파일 생성
수치형 Numerical ~ 주로 민맥스 스케일, 표준화 수행함
1) 민맥스 스케일링 Min-Max Scaling: 0과1 사이의 값으로 만들기. = ( x - min(x) ) / ( max(x) - min(x) )
2) 표준화(StandardScaler) / Z-분포 :평균이 0 이고 표준편차가 1이 되게 만들기. = (x-mean(x)) / std(x)
범주형 Categorical ~ 라벨인코딩, 원핫인코딩
1) 라벨인코딩 : 주로 데이터와 카테고리가 많으면.
2) 원핫인코딩 : 주로 2~5개 정도일때.
Data = Train + Test
* Train = Train + Validation
* Test = Test
분류모델 vs 회귀 모델
분류 모델 | - RandomForest - Decision Tree - XGBoost |
회귀 모델 | - RandomForest - Linear Regression - XGBoost |
모델 = 어떤 모델?
model.fit() 학습하고
model.predict() 예측하고
반응형
'IT,SW,Data,Cloud,코딩 > Python' 카테고리의 다른 글
2023년6월8일 파이썬공부 - 머신러닝 기초 프로세스 (0) | 2023.06.08 |
---|---|
2023년6월7일 파이썬공부 - 피쳐엔지니어링 (0) | 2023.06.07 |
2023년6월7일 파이썬공부 - 데이터전처리 (1) | 2023.06.07 |
2023년6월6일 EDA 공부 (0) | 2023.06.06 |
2023년6월6일 판다스공부 (0) | 2023.06.06 |
2023년6월5일 판다스공부 (0) | 2023.06.06 |
2023년6월5일 파이썬공부 - 퇴근후딴짓님의 인프런 강의 따라치면서 배우기 (0) | 2023.06.05 |
2023년06월03일 파이썬공부 (0) | 2023.06.03 |
댓글