본문 바로가기
반응형

전체 글232

20230615 머신러닝 공부, 시험환경 꿀팁 등 predict() 와 predict_proba() 함수. 함수에 대해 잘 몰라서 구글링함. 다음의 링크를 참고하여 메모함. https://www.inflearn.com/questions/680910/predict-%EC%99%80-predict-proba-%EC%B0%A8%EC%9D%B4 predict 와 predict_proba 차이 - 인프런 | 질문 & 답변 predict 와 predict_proba 차이 강의자료에 짧게 있지만 잘 이해가 안되서요 자세하게 차이를 알고 싶습니다!그리고 다중분류일때 사용하는법도 알고 싶습니다! 다중분류일때 predict_proba 를 사용해서 www.inflearn.com predict는 각각의 모델의 최종적인 예측값을 출력하는 결과. 회귀 모델은, 구체적으로 특정 .. 2023. 6. 15.
20230614 kaggle 따라치기 - 타이타닉 튜토리얼 # 캐글 검색 키워드 추천: tutorial, simple, starter # 캐글 따라치기 https://www.kaggle.com/code/alexisbcook/titanic-tutorial Titanic Tutorial Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 이런식으로도 쓸수있음. 두개가 동일함 #EDA women = train_data.loc[train_data.Sex == 'female']["Survived"] rate_women = sum(women) / len(women) print("% of .. 2023. 6. 14.
20230614 하이퍼 파라메터 튜닝 - 랜덤포레스트, xgboost 모델은 프레딕트, 프레딕트_프로바 둘다 사용가능 model.predict() model.predict_proba() 분류 평가지표는 프레딕트 사용. ROC_AUC_SCORE만 프레딕트_프로바 사용. precision_score : predict f1_score : predict accuracy_score : predict roc_auc_score : predict_proba[:,1] recall_score : predict # 하이퍼 파라미터 튜닝 - RandomForestClassifier # max_depth = 트리의 깊이 제한. (3에서 12사이. 보통 3,5,7 범위 추천) # n_estimators = 트리의 갯수. 기본값은 100이다. (100보다 낮추는 케이스는.. 2023. 6. 14.
20230614 파이썬공부 - 모델링, 평가지표 피쳐엔지니어링 관련 1) 인코딩 : 필수. object 컬럼이 있다면 적용 안함은 없음. 2) 스케일링 : 선택. - 트리계열 모델은 (랜덤포레스트, xgboost, lightgbm) 스케일링 해도 대소관계에 변함이 없어서 영향이 미미함. ################### 진행 순서 1. 베이스라인 (drop) 2. 인코딩 3. 결측치 4. 모델 튜닝 5. 스케일링 ################### 회귀 평가지표 R2 Score 회귀 모델의 '설명력' MAE (Mean Absolute Error) 오차의 절대값의 평균 MSE (Mean Squared Error) 오차의 제곱해서 평균 MAPE (Mean Absolute Percentage Error) MAE를 퍼센트로 표시. RMSE (Root Mea.. 2023. 6. 14.
20230613 파이썬공부 numeric_only=True 인자가 필요한 함수: sum(), mean(), corr() 이런것들. 만약 groupby().sum()했는데 id값 string이 막 더해져서 나오면 numeric_only 넣어주면 된다. import pandas as pd import numpy as np #문제 8 #결측값을 가진 데이터는 바로 뒤에 있는 값으로 대체한 후 (바로 뒤가 결측값이라면 뒤에 있는 데이터 중 가장 가까운 값) #city와 f2컬럼 기준으로 그룹합을 계산한 뒤 # views 가 세번째로 큰 city 이름은? df = pd.read_csv('data/members3.csv') # print(df.head(10)) # print(df.isnull().sum()) # bfill (결측값이 있으면 .. 2023. 6. 13.
20230612 복습문제 #문제 1번 # index '2001' 데이터(행)의 평균보다 큰 값의 수와 # index '2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. ################### #데이터 생성 코드 import pandas as pd import random df = pd.DataFrame() for i in range(0,5): list_box = [] for k in range(0,200): ran_num = random.randint(1,200) list_box.append(ran_num) df[i+2000] = list_box df = df.T df.to_csv('data.csv',index=True) ################### # print(df.head()) # print(.. 2023. 6. 12.
20230611 빅분기 작업형1 모의문제 import pandas as pd ########################################## #문제 4 # 주어진 데이터에서 자료형 (type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다. # 행단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오. ('age','f1','f2','f5','views'의 각 행별 합) df = pd.read_csv('data/21/members.csv') # print(df.shape) # print(df.head()) cols = df.select_dtypes(include='object').columns # print(df[cols]) df = df.drop(cols,axis=1) # 컬럼삭제 # print(df.h.. 2023. 6. 11.
20230611 작업형1 모의문제1 인프런에서 퇴근후딴짓 님의 빅데이터분석기사 실기시험 강의를 들으면서 메모해두기 import pandas as pd # 문제1 # f1컬럼의 결측치는 중앙 값으로 대체 하고, 나머지 결측치가 있는 데이터(행)을 모두 제거 하고, 앞에서부터 70% 데이터 중 views 컬럼의 3사분위수에서 1사분위수를 뺀 값을 구하시오. 단, 데이터 70% 지점은 정수형 (int) 변환 mem = pd.read_csv('data/20/members.csv') med = mem['f1'].median() # print(mem.describe()) mem['f1']=mem['f1'].fillna(med) # print(mem.isnull().sum()) # print(mem.shape) mem=mem.dropna() # pri.. 2023. 6. 11.
20230611 빅분기 3회 실기 기출 작업형2 강의 보기 전에 내 코드 작성 # 작업형2 기출 3회 실기 # 예측할 컬럼: Travel Insurance # 보험가입 확률을 묻는 문제 ########### 자료불러오기 ########### import pandas as pd train = pd.read_csv('data/3rd/train.csv') #시험에서 주어지는 파일 test = pd.read_csv('data/3rd/test.csv') #시험에서 주어지는 파일 y_test = pd.read_csv('data/3rd/y_test.csv') # 선생님이 만드신 파일 print(train.head()) print(test.head()) # Travel Insurance 컬럼이 없음 ########### # EDA print(train.isnull(.. 2023. 6. 11.
반응형