본문 바로가기
반응형

전체 글201

20230619 lightgbm lightgbm 은 결측치 처리도 필요없고 (object 타입은 astype('category') 해주면) 인코딩도 필요없다 ㄷㄷ n_estimator 올릴 때 learning_rate 낮추기만 주의해주기! import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") train = pd.concat([X_train,y_train['gender']],axis=1) test = X_test.copy() # 1. 랜덤포레스트 # 2. lightgbm (결측치처리 및 인코딩이 필요없음) #object 대신에 categ.. 2023. 6. 19.
20230619 빅분기 공부 5회 기출 유형 import pandas as pd # 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) df = pd.read_csv("5-1price.csv") cond1 = (df['종량제봉투종류'] == '규격봉투') cond2 = (df['종량제봉투용도'] == '음식물쓰레기') cond3 = (df['2l가격'] != 0) ans = df[cond1&cond2&cond3]['2l가격'].mean() print(int(round(ans,0))) print(round(ans)) #이렇게 해도 동일하게 정수로 된다. ,0 안하면됨. # bmi 계산하고, 수치가 정상인 사람 수와 위험체중인 사람 수의 차이를 절대값으로 구.. 2023. 6. 19.
20230617 빅분기 4회 기출유형 제2유형 import pandas as pd pd.set_option('display.max_columns',None) test = pd.read_csv('data/4th/test.csv') train = pd.read_csv('data/4th/train.csv') # print(test.shape, train.shape) #(2154,10),(6665,11) # print(test.head()) print(train.head()) #Segmentation이 target test_id = test.pop('ID') #pop의 결과는 Series # print(type(test_id)) # train = train.drop('ID',axis=1) y_train = train.pop('Segmentation') # .. 2023. 6. 17.
20230617 빅분기 3유형 가설검정 t-test, one-way ANOVA 수치형 데이터는 T-검정 ( 모평균 가설검정) 1) 단일표본 t-test (one-sample t-test) 2) 독립표본 t-test (two sample t-test, independent t-test) 3) 대응(쌍체)표본 t-test (paired t-test) 관련 라이브러리는 scipy 사용 https://docs.scipy.org/doc/scipy/reference/stats.html Statistical functions (scipy.stats) — SciPy v1.10.1 Manual Statistical functions (scipy.stats) This module contains a large number of probability distributions, summary and f.. 2023. 6. 17.
20230616 빅분기공부 작업형 제2유형 모의 문제 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_wine() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data1-1.csv", index=False) ##################################################################### # 출력을 원할 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요.. 2023. 6. 17.
20230615 머신러닝 공부, 시험환경 꿀팁 등 predict() 와 predict_proba() 함수. 함수에 대해 잘 몰라서 구글링함. 다음의 링크를 참고하여 메모함. https://www.inflearn.com/questions/680910/predict-%EC%99%80-predict-proba-%EC%B0%A8%EC%9D%B4 predict 와 predict_proba 차이 - 인프런 | 질문 & 답변 predict 와 predict_proba 차이 강의자료에 짧게 있지만 잘 이해가 안되서요 자세하게 차이를 알고 싶습니다!그리고 다중분류일때 사용하는법도 알고 싶습니다! 다중분류일때 predict_proba 를 사용해서 www.inflearn.com predict는 각각의 모델의 최종적인 예측값을 출력하는 결과. 회귀 모델은, 구체적으로 특정 .. 2023. 6. 15.
20230614 kaggle 따라치기 - 타이타닉 튜토리얼 # 캐글 검색 키워드 추천: tutorial, simple, starter # 캐글 따라치기 https://www.kaggle.com/code/alexisbcook/titanic-tutorial Titanic Tutorial Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 이런식으로도 쓸수있음. 두개가 동일함 #EDA women = train_data.loc[train_data.Sex == 'female']["Survived"] rate_women = sum(women) / len(women) print("% of .. 2023. 6. 14.
20230614 하이퍼 파라메터 튜닝 - 랜덤포레스트, xgboost 모델은 프레딕트, 프레딕트_프로바 둘다 사용가능 model.predict() model.predict_proba() 분류 평가지표는 프레딕트 사용. ROC_AUC_SCORE만 프레딕트_프로바 사용. precision_score : predict f1_score : predict accuracy_score : predict roc_auc_score : predict_proba[:,1] recall_score : predict # 하이퍼 파라미터 튜닝 - RandomForestClassifier # max_depth = 트리의 깊이 제한. (3에서 12사이. 보통 3,5,7 범위 추천) # n_estimators = 트리의 갯수. 기본값은 100이다. (100보다 낮추는 케이스는.. 2023. 6. 14.
20230614 파이썬공부 - 모델링, 평가지표 피쳐엔지니어링 관련 1) 인코딩 : 필수. object 컬럼이 있다면 적용 안함은 없음. 2) 스케일링 : 선택. - 트리계열 모델은 (랜덤포레스트, xgboost, lightgbm) 스케일링 해도 대소관계에 변함이 없어서 영향이 미미함. ################### 진행 순서 1. 베이스라인 (drop) 2. 인코딩 3. 결측치 4. 모델 튜닝 5. 스케일링 ################### 회귀 평가지표 R2 Score 회귀 모델의 '설명력' MAE (Mean Absolute Error) 오차의 절대값의 평균 MSE (Mean Squared Error) 오차의 제곱해서 평균 MAPE (Mean Absolute Percentage Error) MAE를 퍼센트로 표시. RMSE (Root Mea.. 2023. 6. 14.
반응형