반응형 전체 글229 20230620 넘파이 ceil, floor, trunc 오늘은 넘나리 공부가 안되고 집중이 안되는 날이었다 뭘 한게 딱히 없는데 ㅠㅠㅠ 내일은 열심히 하자! numpy.percentile(25) df.quantile(0.25) 올림: np.ceil() 내림: np.floor() 버림: np.trunc() 내림과 버림은 양수에서는 같지만 음수에서는 다르다. -5.5에서 내림을 하면 -6, 버림을 하면 -5가 된다. df.map( 딕셔너리 ) df.groupby( as_index = False ) map과 딕셔너리 해주면 replace랑 같은 효과 as_index 는 그룹바이에서 쓰는 reset_index() 랑 같은 효과 2023. 6. 21. 20230619 lightgbm lightgbm 은 결측치 처리도 필요없고 (object 타입은 astype('category') 해주면) 인코딩도 필요없다 ㄷㄷ n_estimator 올릴 때 learning_rate 낮추기만 주의해주기! import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") train = pd.concat([X_train,y_train['gender']],axis=1) test = X_test.copy() # 1. 랜덤포레스트 # 2. lightgbm (결측치처리 및 인코딩이 필요없음) #object 대신에 categ.. 2023. 6. 19. 20230619 빅분기 공부 5회 기출 유형 import pandas as pd # 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) df = pd.read_csv("5-1price.csv") cond1 = (df['종량제봉투종류'] == '규격봉투') cond2 = (df['종량제봉투용도'] == '음식물쓰레기') cond3 = (df['2l가격'] != 0) ans = df[cond1&cond2&cond3]['2l가격'].mean() print(int(round(ans,0))) print(round(ans)) #이렇게 해도 동일하게 정수로 된다. ,0 안하면됨. # bmi 계산하고, 수치가 정상인 사람 수와 위험체중인 사람 수의 차이를 절대값으로 구.. 2023. 6. 19. 20230617 빅분기 4회 기출유형 제2유형 import pandas as pd pd.set_option('display.max_columns',None) test = pd.read_csv('data/4th/test.csv') train = pd.read_csv('data/4th/train.csv') # print(test.shape, train.shape) #(2154,10),(6665,11) # print(test.head()) print(train.head()) #Segmentation이 target test_id = test.pop('ID') #pop의 결과는 Series # print(type(test_id)) # train = train.drop('ID',axis=1) y_train = train.pop('Segmentation') # .. 2023. 6. 17. 20230617 빅분기 3유형 가설검정 t-test, one-way ANOVA 수치형 데이터는 T-검정 ( 모평균 가설검정) 1) 단일표본 t-test (one-sample t-test) 2) 독립표본 t-test (two sample t-test, independent t-test) 3) 대응(쌍체)표본 t-test (paired t-test) 관련 라이브러리는 scipy 사용 https://docs.scipy.org/doc/scipy/reference/stats.html Statistical functions (scipy.stats) — SciPy v1.10.1 Manual Statistical functions (scipy.stats) This module contains a large number of probability distributions, summary and f.. 2023. 6. 17. 20230616 빅분기공부 작업형 제2유형 모의 문제 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_wine() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data1-1.csv", index=False) ##################################################################### # 출력을 원할 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요.. 2023. 6. 17. 20230615 머신러닝 공부, 시험환경 꿀팁 등 predict() 와 predict_proba() 함수. 함수에 대해 잘 몰라서 구글링함. 다음의 링크를 참고하여 메모함. https://www.inflearn.com/questions/680910/predict-%EC%99%80-predict-proba-%EC%B0%A8%EC%9D%B4 predict 와 predict_proba 차이 - 인프런 | 질문 & 답변 predict 와 predict_proba 차이 강의자료에 짧게 있지만 잘 이해가 안되서요 자세하게 차이를 알고 싶습니다!그리고 다중분류일때 사용하는법도 알고 싶습니다! 다중분류일때 predict_proba 를 사용해서 www.inflearn.com predict는 각각의 모델의 최종적인 예측값을 출력하는 결과. 회귀 모델은, 구체적으로 특정 .. 2023. 6. 15. 20230614 kaggle 따라치기 - 타이타닉 튜토리얼 # 캐글 검색 키워드 추천: tutorial, simple, starter # 캐글 따라치기 https://www.kaggle.com/code/alexisbcook/titanic-tutorial Titanic Tutorial Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 이런식으로도 쓸수있음. 두개가 동일함 #EDA women = train_data.loc[train_data.Sex == 'female']["Survived"] rate_women = sum(women) / len(women) print("% of .. 2023. 6. 14. 20230614 하이퍼 파라메터 튜닝 - 랜덤포레스트, xgboost 모델은 프레딕트, 프레딕트_프로바 둘다 사용가능 model.predict() model.predict_proba() 분류 평가지표는 프레딕트 사용. ROC_AUC_SCORE만 프레딕트_프로바 사용. precision_score : predict f1_score : predict accuracy_score : predict roc_auc_score : predict_proba[:,1] recall_score : predict # 하이퍼 파라미터 튜닝 - RandomForestClassifier # max_depth = 트리의 깊이 제한. (3에서 12사이. 보통 3,5,7 범위 추천) # n_estimators = 트리의 갯수. 기본값은 100이다. (100보다 낮추는 케이스는.. 2023. 6. 14. 이전 1 ··· 4 5 6 7 8 9 10 ··· 26 다음 반응형