IT,SW,Data,Cloud,코딩/Python
2023년5월22일 파이썬 공부 - (대구빅데이터활용센터)[빅데이터 분석기사] 빅분기 실기 교육영상 5강, 6강
착실하게
2023. 5. 22. 22:54
반응형
아래의 유투브 강의를 따라 쳐봄
# 데이터 첫번째 행 부터 70% 까지 데이터 추출
# distance 결측값을 중앙값으로 대체
# 결측값 전처리 전후 표준편차 비교
# 전후 결과값 출력
# len, median, np.std
import seaborn as sns #데이터
import pandas as pd
import numpy as np #표준편차
#print(sns.get_dataset_names())
df = sns.load_dataset('planets')
#print(df.head())
#70% 까지 데이터추출
df = df[:int(len(df)*0.7)]
#전후비교 위해서 카피로 뜨고 결측값 전처리함
df2 = df.copy()
df2['distance'] = df2['distance'].fillna(df2['distance'].median())
print('전처리 전: ',np.std(df['distance']))
print('전처리 후: ',np.std(df2['distance']))
# orbital_period 열의 이상치를 IQR 기법으로 제거하여
#이상치들의 합을 계산
#최종결과 출력
import seaborn as sns
sns.get_dataset_names()
df = sns.load_dataset('planets')
#사용자코드
Q25 = df['orbital_period'].quantile(0.25)
Q75 = df['orbital_period'].quantile(0.75)
IQR = Q75 - Q25
min = Q25 - IQR*1.5
max = Q75 + IQR*1.5
df_outliers = df[(df['orbital_period'] <= min) | (max <= df['orbital_period'])]
# | 과 or 은 다름
print(df_outliers['orbital_period'].sum())
반응형