본문 바로가기
반응형

IT,SW,Data,Cloud,코딩/Python45

20230611 작업형1 모의문제1 인프런에서 퇴근후딴짓 님의 빅데이터분석기사 실기시험 강의를 들으면서 메모해두기 import pandas as pd # 문제1 # f1컬럼의 결측치는 중앙 값으로 대체 하고, 나머지 결측치가 있는 데이터(행)을 모두 제거 하고, 앞에서부터 70% 데이터 중 views 컬럼의 3사분위수에서 1사분위수를 뺀 값을 구하시오. 단, 데이터 70% 지점은 정수형 (int) 변환 mem = pd.read_csv('data/20/members.csv') med = mem['f1'].median() # print(mem.describe()) mem['f1']=mem['f1'].fillna(med) # print(mem.isnull().sum()) # print(mem.shape) mem=mem.dropna() # pri.. 2023. 6. 11.
20230611 빅분기 3회 실기 기출 작업형2 강의 보기 전에 내 코드 작성 # 작업형2 기출 3회 실기 # 예측할 컬럼: Travel Insurance # 보험가입 확률을 묻는 문제 ########### 자료불러오기 ########### import pandas as pd train = pd.read_csv('data/3rd/train.csv') #시험에서 주어지는 파일 test = pd.read_csv('data/3rd/test.csv') #시험에서 주어지는 파일 y_test = pd.read_csv('data/3rd/y_test.csv') # 선생님이 만드신 파일 print(train.head()) print(test.head()) # Travel Insurance 컬럼이 없음 ########### # EDA print(train.isnull(.. 2023. 6. 11.
20230611 빅분기 3회 기출 작업형1 # 문제1 #결측치데이터 (행)을 제거하고, 앞에서부터 70% 데이터만 활용해, 'f1' 컬럼 1사분위값을 구하시오. import pandas as pd mem = pd.read_csv('data/members2.csv') mem = mem.dropna(axis=0) line = int(len(mem) * 0.7 ) mem = mem[:line] # print(mem.describe()) # 57 mem = mem.sort_values(by='f1') line = int(len(mem) * 0.25 ) print(mem.iloc[line]['f1']) # 대상컬럼의 1사분위값 구하는 함수가 있음!! # df['대상컬럼'].quantile(.25) print(df['f1'].quantile(.25)) 사분.. 2023. 6. 11.
20230611 빅분기 2회 기출 작업형 2 - 분류 # 제품 배송 시간에 맞춰 배송 되었는지 예측 모델 만들기 # 학습용 데이터를 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터에 적용하여 얻은 예측 (시간에 맞춰 도착하지 않을 확률) 값을 다음과 같은 형식의 csv 파일로 생성하시오 (제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) # 0 정시 도착, 1 정시 도착하지 않음 # 시험환경 세팅 3개 파일 생성 (코드 변경 X) ################################ # 데이터 가져오기 & EDA import pandas as pd X_test = pd.read_csv('archive/X_test.csv') X_train = pd.read_csv('archive/X_train.csv') y_train = pd.read.. 2023. 6. 11.
20230610 파이썬공부 - 작업형 1 실습 import pandas as pd # 작업형1 유형은 문제가 3개가 나온다. # 배점은 각10점. 정답이 있으므로 정확히 맞춰야함. ############################################# #문제1 #주어진 데이터셋(members.csv)의 'views' 컬럼 상위 10개 데이터를 상위 10번째 값으로 대체한 후 'age' 컬럼에서 80 이상인 데이터의 'views' 컬럼 평균값 구하기 df = pd.read_csv("data/members.csv") # print(df.head(20)) #view가 많을수록 상위 이겠지? df = df.sort_values(by='views',ascending=False) # ascending=True (오름차순 정렬) min_value = .. 2023. 6. 10.
20230610 파이썬공부 - 작업형2 피쳐엔지니어링들 중에 LabelEncoder 코드는 반복문안에서 적용 다른것들은 반복문 없이 그냥 한번에 처리 가능 ( MinMaxScaler 등) 그 이유는? 라벨인코딩은 사이킷런에서 한 개의 컬럼 씩 적용하도록 만들어져 있음 # 데이터셋 내용: 백화점 1년 구매 데이터 # cust_id: 고객 ID # gender: 고객의 성별 (0:여자, 1:남자) # 고객의 성별 예측값 (남자일 확률)을 CSV 파일로 생성 # CSV 파일 형식은 cust_id, gender # 3500,0.267 과 같은 형태. 파일명은 수험번호.csv # 데이터전처리 # Feature Engineering # 하이퍼파라미터 튜닝 (초매개변수 최적화) # csv제출(확률값) # 제출한 모델의 성능은 ROC-AUC 평가지표에 따라.. 2023. 6. 10.
20230610 파이썬 공부 - 작업형1 import pandas as pd # 작업형1 문제 # 작업형1에서는 EDA가 거의 필요없음. # 문제: 자동차 데이터셋에서 qsec컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는? ################################################ #스케일링 방법(1) MinMaxScaler mtcars = pd.read_csv('data/mtcars.csv') print(mtcars['qsec'][:3]) from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() mtcars['qsec'] = scaler.fit_transform(mtcars[['qsec']]) # Mi.. 2023. 6. 10.
2023년6월9일 머신러닝-Regression import pandas as pd import numpy as np # 보험료 예측. RMSE 로 평가. CSV는 ID과 예측값. train = pd.read_csv('insurance/train.csv') test = pd.read_csv('insurance/test.csv') print(train.shape, test.shape) print(train.head(3)) print(test.head(3)) print(train.isnull().sum()) print(test.isnull().sum()) #train,test 둘다 결측치가 없음. ############################################ #기초 통계값 확인 후 이상치 처리 print(train.describe()) .. 2023. 6. 10.
2023년6월8일 파이썬공부 - 머신러닝 기초 프로세스 import pandas as pd import numpy as np X_train = pd.read_csv('data_atype/X_train.csv') X_test = pd.read_csv('data_atype/X_test.csv') y_train = pd.read_csv('data_atype/y_train.csv') # 모델링 및 평가 (분류) # 머신러닝 # 문제: 50K 면 1 으로 분류 하는 문제 print(X_train.shape, X_test.shape, y_train.shape) # 목표값 확인 # y_train.head() print(y_train['income'].value_counts()) # 머신러닝 하려는 대상 컬럼들 결정 # 간단하게 수치형 데이터 컬럼으로만 해보려고함 cols.. 2023. 6. 8.
반응형