본문 바로가기
반응형

IT,SW,Data,Cloud,코딩/Python45

20230617 빅분기 3유형 가설검정 t-test, one-way ANOVA 수치형 데이터는 T-검정 ( 모평균 가설검정) 1) 단일표본 t-test (one-sample t-test) 2) 독립표본 t-test (two sample t-test, independent t-test) 3) 대응(쌍체)표본 t-test (paired t-test) 관련 라이브러리는 scipy 사용 https://docs.scipy.org/doc/scipy/reference/stats.html Statistical functions (scipy.stats) — SciPy v1.10.1 Manual Statistical functions (scipy.stats) This module contains a large number of probability distributions, summary and f.. 2023. 6. 17.
20230616 빅분기공부 작업형 제2유형 모의 문제 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_wine() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data1-1.csv", index=False) ##################################################################### # 출력을 원할 경우 print() 함수 활용 # 예시) print(df.head()) # getcwd(), chdir() 등 작업 폴더 설정 불필요.. 2023. 6. 17.
20230615 머신러닝 공부, 시험환경 꿀팁 등 predict() 와 predict_proba() 함수. 함수에 대해 잘 몰라서 구글링함. 다음의 링크를 참고하여 메모함. https://www.inflearn.com/questions/680910/predict-%EC%99%80-predict-proba-%EC%B0%A8%EC%9D%B4 predict 와 predict_proba 차이 - 인프런 | 질문 & 답변 predict 와 predict_proba 차이 강의자료에 짧게 있지만 잘 이해가 안되서요 자세하게 차이를 알고 싶습니다!그리고 다중분류일때 사용하는법도 알고 싶습니다! 다중분류일때 predict_proba 를 사용해서 www.inflearn.com predict는 각각의 모델의 최종적인 예측값을 출력하는 결과. 회귀 모델은, 구체적으로 특정 .. 2023. 6. 15.
20230614 kaggle 따라치기 - 타이타닉 튜토리얼 # 캐글 검색 키워드 추천: tutorial, simple, starter # 캐글 따라치기 https://www.kaggle.com/code/alexisbcook/titanic-tutorial Titanic Tutorial Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 이런식으로도 쓸수있음. 두개가 동일함 #EDA women = train_data.loc[train_data.Sex == 'female']["Survived"] rate_women = sum(women) / len(women) print("% of .. 2023. 6. 14.
20230614 하이퍼 파라메터 튜닝 - 랜덤포레스트, xgboost 모델은 프레딕트, 프레딕트_프로바 둘다 사용가능 model.predict() model.predict_proba() 분류 평가지표는 프레딕트 사용. ROC_AUC_SCORE만 프레딕트_프로바 사용. precision_score : predict f1_score : predict accuracy_score : predict roc_auc_score : predict_proba[:,1] recall_score : predict # 하이퍼 파라미터 튜닝 - RandomForestClassifier # max_depth = 트리의 깊이 제한. (3에서 12사이. 보통 3,5,7 범위 추천) # n_estimators = 트리의 갯수. 기본값은 100이다. (100보다 낮추는 케이스는.. 2023. 6. 14.
20230614 파이썬공부 - 모델링, 평가지표 피쳐엔지니어링 관련 1) 인코딩 : 필수. object 컬럼이 있다면 적용 안함은 없음. 2) 스케일링 : 선택. - 트리계열 모델은 (랜덤포레스트, xgboost, lightgbm) 스케일링 해도 대소관계에 변함이 없어서 영향이 미미함. ################### 진행 순서 1. 베이스라인 (drop) 2. 인코딩 3. 결측치 4. 모델 튜닝 5. 스케일링 ################### 회귀 평가지표 R2 Score 회귀 모델의 '설명력' MAE (Mean Absolute Error) 오차의 절대값의 평균 MSE (Mean Squared Error) 오차의 제곱해서 평균 MAPE (Mean Absolute Percentage Error) MAE를 퍼센트로 표시. RMSE (Root Mea.. 2023. 6. 14.
20230613 파이썬공부 numeric_only=True 인자가 필요한 함수: sum(), mean(), corr() 이런것들. 만약 groupby().sum()했는데 id값 string이 막 더해져서 나오면 numeric_only 넣어주면 된다. import pandas as pd import numpy as np #문제 8 #결측값을 가진 데이터는 바로 뒤에 있는 값으로 대체한 후 (바로 뒤가 결측값이라면 뒤에 있는 데이터 중 가장 가까운 값) #city와 f2컬럼 기준으로 그룹합을 계산한 뒤 # views 가 세번째로 큰 city 이름은? df = pd.read_csv('data/members3.csv') # print(df.head(10)) # print(df.isnull().sum()) # bfill (결측값이 있으면 .. 2023. 6. 13.
20230612 복습문제 #문제 1번 # index '2001' 데이터(행)의 평균보다 큰 값의 수와 # index '2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. ################### #데이터 생성 코드 import pandas as pd import random df = pd.DataFrame() for i in range(0,5): list_box = [] for k in range(0,200): ran_num = random.randint(1,200) list_box.append(ran_num) df[i+2000] = list_box df = df.T df.to_csv('data.csv',index=True) ################### # print(df.head()) # print(.. 2023. 6. 12.
20230611 빅분기 작업형1 모의문제 import pandas as pd ########################################## #문제 4 # 주어진 데이터에서 자료형 (type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다. # 행단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오. ('age','f1','f2','f5','views'의 각 행별 합) df = pd.read_csv('data/21/members.csv') # print(df.shape) # print(df.head()) cols = df.select_dtypes(include='object').columns # print(df[cols]) df = df.drop(cols,axis=1) # 컬럼삭제 # print(df.h.. 2023. 6. 11.
반응형