본문 바로가기
IT,SW,Data,Cloud,코딩/Python

20230614 kaggle 따라치기 - 타이타닉 튜토리얼

by 착실하게 2023. 6. 14.
반응형

# 캐글 검색 키워드 추천: tutorial, simple, starter 
# 캐글 따라치기 https://www.kaggle.com/code/alexisbcook/titanic-tutorial

 

Titanic Tutorial

Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster

www.kaggle.com

 

 

 

이런식으로도 쓸수있음. 두개가 동일함

 

#EDA
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women) / len(women)

print("% of women who survived:",rate_women)


w2 = train_data[train_data['Sex'] == 'female']['Survived']
print(sum(w2)/len(w2), (rate_women==(sum(w2)/len(w2))))

 

 

info() 찍어보면 int,float 등의 숫자형 데이터이지만 

아래와 같이 nunique() 해보면 사실상 범주형 데이터임을 알수있는 컬럼이 있음

 

Pclass 같은 경우가 그러함.

 

이거관련질문이생겨서 커뮤니티 남겨놓았음 내일와서 쌤이 달아준 답글 확인해야함

 

ㅡ> 도메인 지식이 있거나, 시각화 시켰을 때 모양 보고 판단 가능함. nunique()로만 판단한다면 손가락으로 셀수있는정도..? 데이터에 따라 달라지므로, 해보는수밖에 없다고함. 다만 빅분기 40점 만점의 범위가 생각보다 넓었다고함. 

ㅡ> 즉, 그냥 나의 상식선에서 해결해야할듯하다. 

반응형

댓글