본문 바로가기
IT,SW,Data,Cloud,코딩/Python

2023년5월24일 파이썬 공부 - (대구빅데이터활용센터)[빅데이터 분석기사] 빅분기 실기 교육영상 7강 따라쳐보기

by 착실하게 2023. 5. 30.
반응형

이 유투브 따라 쳐보면서 공부한 내용!!

 

https://youtu.be/WYxfdvukFnY

 

 

 

import seaborn as sns 
import pandas as pd 

# 1. 데이터 수집 
# 데이터를 로드하여 df 변수에 할당
# 종속변수는 species 

df = sns.load_dataset('penguins')
print(df.shape) #(344,7)
print(df.head())

# 2. 데이터 결측치 보정 
# 연속형 변수 중 결측치가 존재하는 열을 확인 후 missing 리스트에 열 이름을 입력 
# for 문으로 각 열별 중앙값을 결측치에 입력
# 성별과 같은 범주형의 경우 비중이 높은 남성으로 결측치 입력 

print(df.isna().sum())

# 1) 결측치 제거 
print(df['sex'].value_counts())

missing = ['bill_length_mm','bill_depth_mm','flipper_length_mm','body_mass_g']
for i in missing:
  df[i] = df[i].fillna(df[i].median)

df['sex'] = df['sex'].fillna('Male')



# 3. 라벨 인코딩
# 특정 변수의 경우 문자형으로 되어 있어 컴퓨터가 학습하기 위해 숫자형으로 변환이 필요
# sklearn 라이브러리의 LabelEncoder 모듈을 불러와 변환 작업 수행
# apply 함수를 적용하여 label 변수에 리스트화 되어 있는 변수들의 라벨 인코딩 작업을 수행 

from sklearn.preprocessing import LabelEncoder

label = ['species','island','sex']
print(df[label])
df[label] = df[label].apply( LabelEncoder().fit_transform )
print(df.head())


# 4. 데이터 타입, 더미변환
# pandas 라이브러리 불러오기
# 데이터타입을 카테고리형으로 변경할 열이름을 리스트로 만들기
# for문을 돌려서 카테고리 리스트의 열의 타입을 변경
# pd.get_dummies로 더미변수로 변환

print(df.dtypes)
category = ['island','sex']
for i in category:
  df[i] = df[i].astype('category')

print(df.head())
df = pd.get_dummies(df)
print(df.head())

# 5. 파생변수 생성
# pandas의 qcut를 활용하여 특정변수의 분위수를 계산하여 이를 기반으로 이산화 수행
# 연속된 숫자값이 5개의 구간으로 범주화되어 파생변수가 생성 

# 6. 정규화 또는 스케일 작업
# 변수별 단위가 다른 부분에 대해서는 정규화 또는 스케일 작업이 필수
# 스케일할 변수들을 리스트화
# sklearn의 MinMaxScaler 모듈을 활용하여 스케일 작업 수행
# fit한 다음 transform으로 데이터의 스케일 변환 진행

따라 치다가 중간에 막혀서 

질문 올리고 ㅠㅠ 막혀있다 ㅎㅎ 

반응형

댓글