본문 바로가기
IT,SW,Data,Cloud,코딩/Python

2023년5월22일 파이썬 공부 - (대구빅데이터활용센터)[빅데이터 분석기사] 빅분기 실기 교육영상 5강, 6강

by 착실하게 2023. 5. 22.
반응형

아래의 유투브 강의를 따라 쳐봄 

 

https://youtu.be/tlVdmMViJuM

 

# 데이터 첫번째 행 부터 70% 까지 데이터 추출 
# distance 결측값을 중앙값으로 대체 
# 결측값 전처리 전후 표준편차 비교
# 전후 결과값 출력

# len, median, np.std  

import seaborn as sns #데이터 
import pandas as pd
import numpy as np #표준편차 

#print(sns.get_dataset_names())

df = sns.load_dataset('planets')
#print(df.head())

#70% 까지 데이터추출
df = df[:int(len(df)*0.7)]

#전후비교 위해서 카피로 뜨고 결측값 전처리함 
df2 = df.copy()
df2['distance'] = df2['distance'].fillna(df2['distance'].median())

print('전처리 전: ',np.std(df['distance']))
print('전처리 후: ',np.std(df2['distance']))
# orbital_period 열의 이상치를 IQR 기법으로 제거하여
#이상치들의 합을 계산
#최종결과 출력

import seaborn as sns
sns.get_dataset_names()
df = sns.load_dataset('planets')

#사용자코드
Q25 = df['orbital_period'].quantile(0.25)
Q75 = df['orbital_period'].quantile(0.75)
IQR = Q75 - Q25
min = Q25 - IQR*1.5
max = Q75 + IQR*1.5

df_outliers = df[(df['orbital_period'] <= min) | (max <= df['orbital_period'])]
# | 과 or 은 다름

print(df_outliers['orbital_period'].sum())

 

 

 

 

 

반응형

댓글