본문 바로가기
반응형

IT,SW,Data,Cloud,코딩/Python45

2023년6월24일 제6회 빅데이터분석기사 실기 시험 후기 및 준비 방법 제6회 빅데이터분석기사 실기 시험 후기 제1유형1번 (10점 짜리) dataetime 필드를 빼기 연산 하여 타임델타로 떨어진 것을 다른 조건문 적용 groupby 및 mean 구하고 내림차순 정렬 하니까 구해야할 답은 2분 51초 어쩌고라는 답인데 이걸 정수로 round해서 제출해야하는데, 타임델타에서 꺼내는 게 관건이었음. 나는 _m 과 _s 으로 분과 초를 꺼내는 데에는 성공을 했는데, 30초를 기준으로 round하면 된다 그래서 30보다 큰지작은지 체크하는 if 문 만들어서 _s 로 꺼낸 초 값을 체크해서 _m 결과값에 +1 해주는 코드로 씀. 그런데 확인 하려고 작성한 print 문을 주석처리하니까 출력하려는 답이 달라져버렸음. 그래서 상식적으로 print문 주석처리 하는데 왜 변수 출력값이 영.. 2023. 6. 26.
20230623 그 외 함수 (문자열 등) cut 함수 리턴값의 describe 결과값에 ( ] , [ ) 에서 ( 소괄호는 포함하지않음 [ 대괄호는 포함한다는 의미임. right=True가 디폴트고, False로 바꿀수있음 df_w = df.resample('W').sum() #가능한 것들: Y, M, D, H, T(min), S ... 중복 데이터 발생시 뒤에 나오는 데이터를 삭제함 df = df.drop_duplicates(subset=['age']) df['previous_PV'] = df['PV'].shift(1) 바로 뒤의 데이터로 채우기 import pandas as pd df = pd.read_csv("/kaggle/input/bigdatacertificationkr/payment.csv") print(df.head()) # 풀이 .. 2023. 6. 23.
빅분기 실기 대비 요약노트 pd.set_option('display.max_columns',None) 이거 설정하면, 중간에 ... 으로 안 나오고, 전부 나온다. 한줄 넘어가는건 아래쪽에 찍힌다. 설정하고 출발하라는 꿀팁 dir(), help(), __all__ 마우스 오른쪽 복사하기, 메모장에 붙여넣기 하고, ctrl + f 로 읽어라. 표준편차와 분산은 넘파일 말고 판다스로 사용해라. #################################### # 작업형 1 관련 df.reset_index() 인덱스컬럼의 일반컬럼화 df['컬럼'].quantile(0.25) 대상컬럼의 1사분위수 df.index[0] 데이터프레임의 인덱스 선택 df.T 트랜스포즈 행열전환 최빈값 꺼내올 때는 맨뒤에 [0] 까지 해줘야 한다. mod = .. 2023. 6. 23.
20230622 이런저런함수들 T1-19 데이터프레임에 행별로 어떤 조건에 따라 어떤 내용을 적용할때 이렇게 어플라이 가능함. def calc(x): if x['Events'] == 1: x['Sales_new'] = x['Sales'] * 0.8 else: x['Sales_new'] = x['Sales'] return x df = df.apply(lambda x: calc(x),axis=1) T1-20 판다스 merge 함수. df = pd.merge(left = b1 , right = b3, how = "left", on = "f4") how 에 넣을 수 있는 건 ‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’ 디폴트는 inner T1-21 이상치 제거 # age 이상치 (음수(0포함) 제거 df = .. 2023. 6. 22.
20230621 캐글 연습문제 풀기 https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr Big Data Certification KR 빅데이터 분석기사 실기 (Python, R tutorial code) www.kaggle.com 퇴근후딴짓님의 캐글 연습문제 풀면서 내 코드 메모하기 및 공부 df['f1'].fillna( df.groupby("city")["f1"].transform("median") ,inplace=True ) 그룹바이 + 트랜스폼 https://wikidocs.net/152703 03-05. 함수연속적용_요소별 (transform) ####DataFrame.transform(func, axis=0, args, kwargs) ##개요 transform메서드는.. 2023. 6. 22.
20230620 넘파이 ceil, floor, trunc 오늘은 넘나리 공부가 안되고 집중이 안되는 날이었다 뭘 한게 딱히 없는데 ㅠㅠㅠ 내일은 열심히 하자! numpy.percentile(25) df.quantile(0.25) 올림: np.ceil() 내림: np.floor() 버림: np.trunc() 내림과 버림은 양수에서는 같지만 음수에서는 다르다. -5.5에서 내림을 하면 -6, 버림을 하면 -5가 된다. df.map( 딕셔너리 ) df.groupby( as_index = False ) map과 딕셔너리 해주면 replace랑 같은 효과 as_index 는 그룹바이에서 쓰는 reset_index() 랑 같은 효과 2023. 6. 21.
20230619 lightgbm lightgbm 은 결측치 처리도 필요없고 (object 타입은 astype('category') 해주면) 인코딩도 필요없다 ㄷㄷ n_estimator 올릴 때 learning_rate 낮추기만 주의해주기! import pandas as pd X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") train = pd.concat([X_train,y_train['gender']],axis=1) test = X_test.copy() # 1. 랜덤포레스트 # 2. lightgbm (결측치처리 및 인코딩이 필요없음) #object 대신에 categ.. 2023. 6. 19.
20230619 빅분기 공부 5회 기출 유형 import pandas as pd # 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) df = pd.read_csv("5-1price.csv") cond1 = (df['종량제봉투종류'] == '규격봉투') cond2 = (df['종량제봉투용도'] == '음식물쓰레기') cond3 = (df['2l가격'] != 0) ans = df[cond1&cond2&cond3]['2l가격'].mean() print(int(round(ans,0))) print(round(ans)) #이렇게 해도 동일하게 정수로 된다. ,0 안하면됨. # bmi 계산하고, 수치가 정상인 사람 수와 위험체중인 사람 수의 차이를 절대값으로 구.. 2023. 6. 19.
20230617 빅분기 4회 기출유형 제2유형 import pandas as pd pd.set_option('display.max_columns',None) test = pd.read_csv('data/4th/test.csv') train = pd.read_csv('data/4th/train.csv') # print(test.shape, train.shape) #(2154,10),(6665,11) # print(test.head()) print(train.head()) #Segmentation이 target test_id = test.pop('ID') #pop의 결과는 Series # print(type(test_id)) # train = train.drop('ID',axis=1) y_train = train.pop('Segmentation') # .. 2023. 6. 17.
반응형