IT,SW,Data,Cloud,코딩/Python
20230614 kaggle 따라치기 - 타이타닉 튜토리얼
착실하게
2023. 6. 14. 22:38
반응형
# 캐글 검색 키워드 추천: tutorial, simple, starter
# 캐글 따라치기 https://www.kaggle.com/code/alexisbcook/titanic-tutorial
Titanic Tutorial
Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster
www.kaggle.com
이런식으로도 쓸수있음. 두개가 동일함
#EDA
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women) / len(women)
print("% of women who survived:",rate_women)
w2 = train_data[train_data['Sex'] == 'female']['Survived']
print(sum(w2)/len(w2), (rate_women==(sum(w2)/len(w2))))
info() 찍어보면 int,float 등의 숫자형 데이터이지만
아래와 같이 nunique() 해보면 사실상 범주형 데이터임을 알수있는 컬럼이 있음
Pclass 같은 경우가 그러함.
이거관련질문이생겨서 커뮤니티 남겨놓았음 내일와서 쌤이 달아준 답글 확인해야함
ㅡ> 도메인 지식이 있거나, 시각화 시켰을 때 모양 보고 판단 가능함. nunique()로만 판단한다면 손가락으로 셀수있는정도..? 데이터에 따라 달라지므로, 해보는수밖에 없다고함. 다만 빅분기 40점 만점의 범위가 생각보다 넓었다고함.
ㅡ> 즉, 그냥 나의 상식선에서 해결해야할듯하다.
반응형