반응형
# 캐글 검색 키워드 추천: tutorial, simple, starter
# 캐글 따라치기 https://www.kaggle.com/code/alexisbcook/titanic-tutorial
이런식으로도 쓸수있음. 두개가 동일함
#EDA
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women) / len(women)
print("% of women who survived:",rate_women)
w2 = train_data[train_data['Sex'] == 'female']['Survived']
print(sum(w2)/len(w2), (rate_women==(sum(w2)/len(w2))))
info() 찍어보면 int,float 등의 숫자형 데이터이지만
아래와 같이 nunique() 해보면 사실상 범주형 데이터임을 알수있는 컬럼이 있음
Pclass 같은 경우가 그러함.
이거관련질문이생겨서 커뮤니티 남겨놓았음 내일와서 쌤이 달아준 답글 확인해야함
ㅡ> 도메인 지식이 있거나, 시각화 시켰을 때 모양 보고 판단 가능함. nunique()로만 판단한다면 손가락으로 셀수있는정도..? 데이터에 따라 달라지므로, 해보는수밖에 없다고함. 다만 빅분기 40점 만점의 범위가 생각보다 넓었다고함.
ㅡ> 즉, 그냥 나의 상식선에서 해결해야할듯하다.
반응형
'IT,SW,Data,Cloud,코딩 > Python' 카테고리의 다른 글
20230617 빅분기 4회 기출유형 제2유형 (0) | 2023.06.17 |
---|---|
20230617 빅분기 3유형 가설검정 t-test, one-way ANOVA (1) | 2023.06.17 |
20230616 빅분기공부 (0) | 2023.06.17 |
20230615 머신러닝 공부, 시험환경 꿀팁 등 (0) | 2023.06.15 |
20230614 하이퍼 파라메터 튜닝 - 랜덤포레스트, xgboost (0) | 2023.06.14 |
20230614 파이썬공부 - 모델링, 평가지표 (0) | 2023.06.14 |
20230613 파이썬공부 (0) | 2023.06.13 |
20230612 복습문제 (0) | 2023.06.12 |
댓글