제6회 빅데이터분석기사 실기 시험 후기
제1유형
1번 (10점 짜리)
dataetime 필드를 빼기 연산 하여 타임델타로 떨어진 것을
다른 조건문 적용 groupby 및 mean 구하고 내림차순 정렬 하니까 구해야할 답은 2분 51초 어쩌고라는 답인데
이걸 정수로 round해서 제출해야하는데, 타임델타에서 꺼내는 게 관건이었음.
나는 _m 과 _s 으로 분과 초를 꺼내는 데에는 성공을 했는데,
30초를 기준으로 round하면 된다 그래서 30보다 큰지작은지 체크하는 if 문 만들어서 _s 로 꺼낸 초 값을 체크해서 _m 결과값에 +1 해주는 코드로 씀.
그런데 확인 하려고 작성한 print 문을 주석처리하니까
출력하려는 답이 달라져버렸음. 그래서 상식적으로 print문 주석처리 하는데 왜 변수 출력값이 영향을 받는지 이해가 안되어서 서버 문의 같다고 일대일문의 남겼는데 검토중이라는 답변만 받고,
일대일문의 받는 사람이 그냥 구한 답을 출력하는 코드를 쓰라고 하길래 print(3) 이라는 하드코딩으로 하면 된다는 얘기로 이해하고 제출하였음. 그런데 시험장을 나와서 오픈카톡방을 보니까 하드코딩 하면 0점이라는 얘기가 있어서 dataq 사이트에도 문의를 남겼음.만약 진짜 하드코딩때문에 0점처리되면 내 케이스는 너무 억울할거같음 ㅋㅋㅋ
다른사람은 totalseconds로 꺼내어서 몇분인지 구하는 def 함수 정의 했다고함.
2번 (10점 짜리)
데이터프레임에 조건 주고 추출해서 정렬하는 코딩 정도. 무난하게 구할수있는편. reset_index(), groupby, .mean(), ascending=False, df[condition주는 코드] 정도 알면 할수있었음.
3번 (10점 짜리)
데이터프레임에 조건 주고 추출해서 정렬하는 코딩 정도. 무난하게 구할수있는편. 1유형 2번과 거의 난이도 동일하고 알아야 하는 코드도 비슷했음. 그런데 지문 해석 논란이 있어서 검토중이라는 소문을 들었음.
제2유형
4번 문제 (40점 짜리)
drop 해야할 text 필드도 없어 보이고
데이터 전체 다 결측치도 없고,
이상치도 없고 (1~5점 척도 스케일 데이터에 범위를 벗어나거나 소수점 데이터 없었음)
train data와 test data에 범주형 데이터의 카테고리의 개수도 2개 데이터셋이 동일하였고
1~5점 척도로 받은 데이터였어서 스케일링도 필요없었다.
1~5점 척도 데이터라는게 숫자의 크기가 의미가 있는 데이터이므로
categorical 데이터에 적용할 인코딩으로는 라벨인코딩보다는 원핫인코딩이 나을거같아서 원핫인코딩 진행했음.
숫자의 크기가 의미가 있는 데이터니까 선형 모델 써보려고 했으나 다중분류 해야하는데 선형모델로 다중분류 하는걸 잘 못하겠어서
결국에 그냥 랜덤포레스트, lightgbm 2개를 돌렸다.
train test split 으로 train data 와 validation data 나누고, train으로 학습시키고 validation 데이터 f1 score (average = macro) 값을 봤는데 lightgbm보다 랜덤포레스트가 값이 더 높게 나와서 랜포 선택함. 거의 0.97에 가까운 값이 나왔음.
근데 너무 높은거 같고 혹시 과적합인가 싶어서
train과 validation data 각각에 대해서 f1 score macro 확인 해보니,
validation data에 대한 f1 score도 마찬가지로 매우 높아서 과적합은 아니라고 판단하였음. 그래서 그냥 내기로 판단함.
EDA 한 코드랑 확인 용도 print문들도 다 주석처리 하고 나니까
막상 돌아가는 코드는 몇줄 안되는데 너무 생각을 많이 해서 그런지 제2유형에 1시간을 소비함.
제3유형
이번 6회 부터 새로 생긴 유형인데 scipy 의 stats 를 공부해야하는 유형.
dataq 구름환경 테스트문제 보면 ttest_rel 사용해서 paired t-test 진행하고 result의 statistic, p-value만 볼줄알면 되는 문제여서 그런가보다 이번에 새로 나온 유형이라 좀 쉬우려나보다 생각했었는데
막상 문제 보니까 이게웬걸 난이도가 높았음 나같은 초보가 깜짝 놀래버림
ttest_1samp, ttest_ind, ttest_rel 셋다 아니었음
5번 문제 (1),(2),(3) (5점짜리 3개)
(1) 문제는 그냥 제1유형이랑 비슷함. shape[0]으로 나눠줘서 비율 구하면 끝. 이거는 맞춘듯.
(2)랑 (3)
카이스퀘어 써야하는 문제였던거같음.
잘 모르겠어서 chisquare 하고 statistic 결과 대충 써버림.
근데 이게 나중에 보니까 chisquare는 비율이 아니라, 빈도 수로 해야 하는 거라고 함. ㅎㅎㅎㅎㅎ.
문제가 비율로 나와있는 건데, 난 chisquare를 솔직히 잘 몰라서 비율로 했었는데
help 로 읽었을때 빈도수라는 단어를 얼핏 보긴 했는데 약간 안일했던 내 잘못이 맞고 chisquare공부 소홀했던 내 잘못이 맞으니까 틀린게 아쉽지는 않음
6번 문제 (1),(2),(3) (5점짜리 3개)
이거는 진짜 잘 모르겠어서 1번은 대충 암거나 씀. 그리고 2번이랑 3번은 빈칸으로 냈다. 공부 안한 내 잘못이징. 아쉽지도 않다.
근데 나중에 보니까 시험 공고에 파이썬 제공되는 라이브러리에 statsmodel은 없었는데 이게 statsmodel로 푸는거라고함.
그래서 2번이랑 3번이 전원 정답 처리된다는 답변을 받은 사람이 2명이나 있어서 7월7일에 확인해 봐야겠지만 10점을 아마도 진짜 받을거같음. 그래서 합격각 뜨는 느낌임
빅데이터분석기사 실기 시험 준비 방법
이게 정석이란건 아니고 그냥 내가 뭘 했는지에 대한 정리 글이다.
1. 파이썬 문법 손에 익히기
백준에서 파이썬 배우기 문제 50개 풀었음.
파이썬 문법 익히기.
https://www.acmicpc.net/workbook/view/459
2. 인프런 퇴근후딴짓님 강의 들었음.
시간을 아껴준 강의였다 진짜루.
시간없고 그냥 빅분기 따고싶으면 이거 일단 들으면 도움된다.
https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0
3. 캐글에서 연습문제 풀기
퇴근후딴짓 님이 운영하는 캐글. 여기서 추가로 연습문제 풀면서 코드 익힘.
https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
4. [책] 빅데이터분석기사 실기 한권완성 / 예문에듀.
인프런 강의 구매하기 전에 미리 사두었던 책.
실기시험이다보니까 아무래도 직접 코딩 많이 하는게 더 공부가 잘되었고
책은 조금 아는 상태에서 전체적으로 한번 훑으면서 내가 아는 부분은 쉽게 넘어갈수있었고 몰랐던것들에 대해 설명을 읽으니 도움이 되었다.
이렇게 하면 60점 합격선 근처에 대충은 갈수있는듯.
나는 한달 조금 넘게 준비했다.
다음 7회에는 stats는 물론 statsmodel까지 공부해야하니까 범위가 더 늘어나서 6회보다 더 힘들어질 듯하다.
생긴지 얼마 안되었을때 따야지 따기 쉬운데 ㅠ
2년전에 필기 합격해놓고
미적미적거리다가 실기를 이제야 치다니....
6회에 합격 못하면 필기부터 다시 해야해서 배수의 진을 치고 시험을 치르는 기분이었다 ㅎㅎ
겨우겨우 어찌어찌 합격은 할거같다. 7월7일에 가채점 봐야 더 확실하겠지만!!!
7월7일 16시 가채점 결과 확인 ㅡ 합격
3유형 10점 (5×2) 전원 정답 처리됨
85점 합격~
'IT,SW,Data,Cloud,코딩 > Python' 카테고리의 다른 글
20230623 그 외 함수 (문자열 등) (0) | 2023.06.23 |
---|---|
빅분기 실기 대비 요약노트 (0) | 2023.06.23 |
20230622 이런저런함수들 (0) | 2023.06.22 |
20230621 캐글 연습문제 풀기 (0) | 2023.06.22 |
20230620 넘파이 ceil, floor, trunc (0) | 2023.06.21 |
20230619 lightgbm (0) | 2023.06.19 |
20230619 빅분기 공부 5회 기출 유형 (0) | 2023.06.19 |
20230617 빅분기 4회 기출유형 제2유형 (0) | 2023.06.17 |
댓글