본문 바로가기
반응형

전체 글201

20230610 파이썬 공부 - 작업형1 import pandas as pd # 작업형1 문제 # 작업형1에서는 EDA가 거의 필요없음. # 문제: 자동차 데이터셋에서 qsec컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는? ################################################ #스케일링 방법(1) MinMaxScaler mtcars = pd.read_csv('data/mtcars.csv') print(mtcars['qsec'][:3]) from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() mtcars['qsec'] = scaler.fit_transform(mtcars[['qsec']]) # Mi.. 2023. 6. 10.
2023년6월9일 머신러닝-Regression import pandas as pd import numpy as np # 보험료 예측. RMSE 로 평가. CSV는 ID과 예측값. train = pd.read_csv('insurance/train.csv') test = pd.read_csv('insurance/test.csv') print(train.shape, test.shape) print(train.head(3)) print(test.head(3)) print(train.isnull().sum()) print(test.isnull().sum()) #train,test 둘다 결측치가 없음. ############################################ #기초 통계값 확인 후 이상치 처리 print(train.describe()) .. 2023. 6. 10.
2023년6월8일 파이썬공부 - 머신러닝 기초 프로세스 import pandas as pd import numpy as np X_train = pd.read_csv('data_atype/X_train.csv') X_test = pd.read_csv('data_atype/X_test.csv') y_train = pd.read_csv('data_atype/y_train.csv') # 모델링 및 평가 (분류) # 머신러닝 # 문제: 50K 면 1 으로 분류 하는 문제 print(X_train.shape, X_test.shape, y_train.shape) # 목표값 확인 # y_train.head() print(y_train['income'].value_counts()) # 머신러닝 하려는 대상 컬럼들 결정 # 간단하게 수치형 데이터 컬럼으로만 해보려고함 cols.. 2023. 6. 8.
2023년6월7일 파이썬공부 - 피쳐엔지니어링 import pandas as pd import numpy as np X_train = pd.read_csv('data_atype/X_train.csv') y_train = pd.read_csv('data_atype/y_train.csv') X_test = pd.read_csv('data_atype/X_test.csv') md = X_train['workclass'].mode()[0] print(md) X_train['workclass'] = X_train['workclass'].fillna(md) print(X_train.isnull().sum()) print("=========") #최빈값이 월등히많은 데이터가 아니므로 그냥 새로운 값으로 채우는 케이스 X_train['occupation']=X_tr.. 2023. 6. 7.
2023년6월7일 파이썬공부 - 데이터전처리 import pandas as pd import numpy as np X_train = pd.read_csv('data_atype/X_train.csv') y_train = pd.read_csv('data_atype/y_train.csv') X_test = pd.read_csv('data_atype/X_test.csv') # 결측치 확인 print(X_train.isnull().sum()) print(X_test.isnull().sum()) # x_t = pd.DataFrame(X_train) # print(x_t.isnull().sum()) # 이렇게 데이터프레임 씌운거랑 위에 안 씌운거랑 동일한 결과임. 차이가 뭔지 모르겠음 print("=") # 데이터 타입 확인 print(X_train.info(.. 2023. 6. 7.
2023년6월6일 EDA 공부 import pandas as pd X_train = pd.read_csv("data_atype/X_train.csv") X_test = pd.read_csv("data_atype/X_test.csv") y_train = pd.read_csv("data_atype/y_train.csv") # 데이터 내용 간단확인 print(X_train.head()) print(X_train.sample(3)) # 데이터 행,열 갯수 확인 print(X_train.shape) # 데이터 타입 확인 print(X_train.info()) #수치형 컬럼통계값 확인 print(X_train.describe()) #age에 마이너스값 있다 ㅡ> 이상해보임!! 등등을 확인해라. #범주형 컬럼통계값 확인 print(X_train... 2023. 6. 6.
2023년6월6일 머신러닝 요약 머신러닝 프로세스 1) 문제 정의 2) 탐색적데이터분석 EDA 3) 데이터 전처리 - 결측치, 이상치 4) 피처 엔지니어링 - 민맥스 스케일, 표준화, 라벨인코딩, 원핫인코딩, 피쳐선택 등 5) 데이터 나누기 TRAIN/TEST/VALIDATION 6) 모델 (선택/훈련/평가/최적화) 7) 예측 8) CSV 파일 생성 수치형 Numerical ~ 주로 민맥스 스케일, 표준화 수행함 1) 민맥스 스케일링 Min-Max Scaling: 0과1 사이의 값으로 만들기. = ( x - min(x) ) / ( max(x) - min(x) ) 2) 표준화(StandardScaler) / Z-분포 :평균이 0 이고 표준편차가 1이 되게 만들기. = (x-mean(x)) / std(x) 범주형 Categorical ~ .. 2023. 6. 6.
2023년6월6일 판다스공부 판다스 조건문 # 연습위해 1회 실행하면 된다. # data = { # "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], # "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], # "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], # "칼로리":[10, 180, 420, 320, 20, 500, 400], # "원두":['콜롬비아', np.NaN, '과테말라', np.NaN, '한국', '콜롬비아', np.NaN], # "이벤트가":[1900, 2300, np.NaN, 2600, np.NaN, 3000, 3200], # } # data = pd.DataFrame(data) # data.to.. 2023. 6. 6.
2023년6월5일 판다스공부 import pandas as pd # 학습 전 실행: csv파일 (data.csv) 생성 data = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400], } data = pd.DataFrame(data) data.to_csv('data.csv', index=False) # 데이터 불러오기 df = pd.read_csv('data.csv') print(df.head()) #########################.. 2023. 6. 6.
반응형