본문 바로가기
반응형

전체 글201

20230613 파이썬공부 numeric_only=True 인자가 필요한 함수: sum(), mean(), corr() 이런것들. 만약 groupby().sum()했는데 id값 string이 막 더해져서 나오면 numeric_only 넣어주면 된다. import pandas as pd import numpy as np #문제 8 #결측값을 가진 데이터는 바로 뒤에 있는 값으로 대체한 후 (바로 뒤가 결측값이라면 뒤에 있는 데이터 중 가장 가까운 값) #city와 f2컬럼 기준으로 그룹합을 계산한 뒤 # views 가 세번째로 큰 city 이름은? df = pd.read_csv('data/members3.csv') # print(df.head(10)) # print(df.isnull().sum()) # bfill (결측값이 있으면 .. 2023. 6. 13.
20230612 복습문제 #문제 1번 # index '2001' 데이터(행)의 평균보다 큰 값의 수와 # index '2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. ################### #데이터 생성 코드 import pandas as pd import random df = pd.DataFrame() for i in range(0,5): list_box = [] for k in range(0,200): ran_num = random.randint(1,200) list_box.append(ran_num) df[i+2000] = list_box df = df.T df.to_csv('data.csv',index=True) ################### # print(df.head()) # print(.. 2023. 6. 12.
20230611 빅분기 작업형1 모의문제 import pandas as pd ########################################## #문제 4 # 주어진 데이터에서 자료형 (type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다. # 행단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오. ('age','f1','f2','f5','views'의 각 행별 합) df = pd.read_csv('data/21/members.csv') # print(df.shape) # print(df.head()) cols = df.select_dtypes(include='object').columns # print(df[cols]) df = df.drop(cols,axis=1) # 컬럼삭제 # print(df.h.. 2023. 6. 11.
20230611 작업형1 모의문제1 인프런에서 퇴근후딴짓 님의 빅데이터분석기사 실기시험 강의를 들으면서 메모해두기 import pandas as pd # 문제1 # f1컬럼의 결측치는 중앙 값으로 대체 하고, 나머지 결측치가 있는 데이터(행)을 모두 제거 하고, 앞에서부터 70% 데이터 중 views 컬럼의 3사분위수에서 1사분위수를 뺀 값을 구하시오. 단, 데이터 70% 지점은 정수형 (int) 변환 mem = pd.read_csv('data/20/members.csv') med = mem['f1'].median() # print(mem.describe()) mem['f1']=mem['f1'].fillna(med) # print(mem.isnull().sum()) # print(mem.shape) mem=mem.dropna() # pri.. 2023. 6. 11.
20230611 빅분기 3회 실기 기출 작업형2 강의 보기 전에 내 코드 작성 # 작업형2 기출 3회 실기 # 예측할 컬럼: Travel Insurance # 보험가입 확률을 묻는 문제 ########### 자료불러오기 ########### import pandas as pd train = pd.read_csv('data/3rd/train.csv') #시험에서 주어지는 파일 test = pd.read_csv('data/3rd/test.csv') #시험에서 주어지는 파일 y_test = pd.read_csv('data/3rd/y_test.csv') # 선생님이 만드신 파일 print(train.head()) print(test.head()) # Travel Insurance 컬럼이 없음 ########### # EDA print(train.isnull(.. 2023. 6. 11.
20230611 빅분기 3회 기출 작업형1 # 문제1 #결측치데이터 (행)을 제거하고, 앞에서부터 70% 데이터만 활용해, 'f1' 컬럼 1사분위값을 구하시오. import pandas as pd mem = pd.read_csv('data/members2.csv') mem = mem.dropna(axis=0) line = int(len(mem) * 0.7 ) mem = mem[:line] # print(mem.describe()) # 57 mem = mem.sort_values(by='f1') line = int(len(mem) * 0.25 ) print(mem.iloc[line]['f1']) # 대상컬럼의 1사분위값 구하는 함수가 있음!! # df['대상컬럼'].quantile(.25) print(df['f1'].quantile(.25)) 사분.. 2023. 6. 11.
20230611 빅분기 2회 기출 작업형 2 - 분류 # 제품 배송 시간에 맞춰 배송 되었는지 예측 모델 만들기 # 학습용 데이터를 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터에 적용하여 얻은 예측 (시간에 맞춰 도착하지 않을 확률) 값을 다음과 같은 형식의 csv 파일로 생성하시오 (제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) # 0 정시 도착, 1 정시 도착하지 않음 # 시험환경 세팅 3개 파일 생성 (코드 변경 X) ################################ # 데이터 가져오기 & EDA import pandas as pd X_test = pd.read_csv('archive/X_test.csv') X_train = pd.read_csv('archive/X_train.csv') y_train = pd.read.. 2023. 6. 11.
20230610 파이썬공부 - 작업형 1 실습 import pandas as pd # 작업형1 유형은 문제가 3개가 나온다. # 배점은 각10점. 정답이 있으므로 정확히 맞춰야함. ############################################# #문제1 #주어진 데이터셋(members.csv)의 'views' 컬럼 상위 10개 데이터를 상위 10번째 값으로 대체한 후 'age' 컬럼에서 80 이상인 데이터의 'views' 컬럼 평균값 구하기 df = pd.read_csv("data/members.csv") # print(df.head(20)) #view가 많을수록 상위 이겠지? df = df.sort_values(by='views',ascending=False) # ascending=True (오름차순 정렬) min_value = .. 2023. 6. 10.
20230610 파이썬공부 - 작업형2 피쳐엔지니어링들 중에 LabelEncoder 코드는 반복문안에서 적용 다른것들은 반복문 없이 그냥 한번에 처리 가능 ( MinMaxScaler 등) 그 이유는? 라벨인코딩은 사이킷런에서 한 개의 컬럼 씩 적용하도록 만들어져 있음 # 데이터셋 내용: 백화점 1년 구매 데이터 # cust_id: 고객 ID # gender: 고객의 성별 (0:여자, 1:남자) # 고객의 성별 예측값 (남자일 확률)을 CSV 파일로 생성 # CSV 파일 형식은 cust_id, gender # 3500,0.267 과 같은 형태. 파일명은 수험번호.csv # 데이터전처리 # Feature Engineering # 하이퍼파라미터 튜닝 (초매개변수 최적화) # csv제출(확률값) # 제출한 모델의 성능은 ROC-AUC 평가지표에 따라.. 2023. 6. 10.
반응형