본문 바로가기
반응형

IT,SW,Data,Cloud,코딩/Python45

2023년6월7일 파이썬공부 - 피쳐엔지니어링 import pandas as pd import numpy as np X_train = pd.read_csv('data_atype/X_train.csv') y_train = pd.read_csv('data_atype/y_train.csv') X_test = pd.read_csv('data_atype/X_test.csv') md = X_train['workclass'].mode()[0] print(md) X_train['workclass'] = X_train['workclass'].fillna(md) print(X_train.isnull().sum()) print("=========") #최빈값이 월등히많은 데이터가 아니므로 그냥 새로운 값으로 채우는 케이스 X_train['occupation']=X_tr.. 2023. 6. 7.
2023년6월7일 파이썬공부 - 데이터전처리 import pandas as pd import numpy as np X_train = pd.read_csv('data_atype/X_train.csv') y_train = pd.read_csv('data_atype/y_train.csv') X_test = pd.read_csv('data_atype/X_test.csv') # 결측치 확인 print(X_train.isnull().sum()) print(X_test.isnull().sum()) # x_t = pd.DataFrame(X_train) # print(x_t.isnull().sum()) # 이렇게 데이터프레임 씌운거랑 위에 안 씌운거랑 동일한 결과임. 차이가 뭔지 모르겠음 print("=") # 데이터 타입 확인 print(X_train.info(.. 2023. 6. 7.
2023년6월6일 EDA 공부 import pandas as pd X_train = pd.read_csv("data_atype/X_train.csv") X_test = pd.read_csv("data_atype/X_test.csv") y_train = pd.read_csv("data_atype/y_train.csv") # 데이터 내용 간단확인 print(X_train.head()) print(X_train.sample(3)) # 데이터 행,열 갯수 확인 print(X_train.shape) # 데이터 타입 확인 print(X_train.info()) #수치형 컬럼통계값 확인 print(X_train.describe()) #age에 마이너스값 있다 ㅡ> 이상해보임!! 등등을 확인해라. #범주형 컬럼통계값 확인 print(X_train... 2023. 6. 6.
2023년6월6일 머신러닝 요약 머신러닝 프로세스 1) 문제 정의 2) 탐색적데이터분석 EDA 3) 데이터 전처리 - 결측치, 이상치 4) 피처 엔지니어링 - 민맥스 스케일, 표준화, 라벨인코딩, 원핫인코딩, 피쳐선택 등 5) 데이터 나누기 TRAIN/TEST/VALIDATION 6) 모델 (선택/훈련/평가/최적화) 7) 예측 8) CSV 파일 생성 수치형 Numerical ~ 주로 민맥스 스케일, 표준화 수행함 1) 민맥스 스케일링 Min-Max Scaling: 0과1 사이의 값으로 만들기. = ( x - min(x) ) / ( max(x) - min(x) ) 2) 표준화(StandardScaler) / Z-분포 :평균이 0 이고 표준편차가 1이 되게 만들기. = (x-mean(x)) / std(x) 범주형 Categorical ~ .. 2023. 6. 6.
2023년6월6일 판다스공부 판다스 조건문 # 연습위해 1회 실행하면 된다. # data = { # "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], # "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], # "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], # "칼로리":[10, 180, 420, 320, 20, 500, 400], # "원두":['콜롬비아', np.NaN, '과테말라', np.NaN, '한국', '콜롬비아', np.NaN], # "이벤트가":[1900, 2300, np.NaN, 2600, np.NaN, 3000, 3200], # } # data = pd.DataFrame(data) # data.to.. 2023. 6. 6.
2023년6월5일 판다스공부 import pandas as pd # 학습 전 실행: csv파일 (data.csv) 생성 data = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400], } data = pd.DataFrame(data) data.to_csv('data.csv', index=False) # 데이터 불러오기 df = pd.read_csv('data.csv') print(df.head()) #########################.. 2023. 6. 6.
2023년6월5일 파이썬공부 - 퇴근후딴짓님의 인프런 강의 따라치면서 배우기 시리즈 ㅡ 데이터프레임의 하위 자료형. 한 개의 열. 딕셔너리의 key 값이 index가 되고, value값이 값이 된다. 데이터프레임 ㅡ 여러 개의 시리즈가 모여서 데이터 프레임을 형성함. import pandas as pd # data = { # "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], # "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], # "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], # "칼로리":[10, 180, 420, 320, 20, 500, 400], # } # data = pd.DataFrame(data) # data.to_csv('data.csv', ind.. 2023. 6. 5.
2023년06월03일 파이썬공부 text = "안녕하세요" print(text[:2]) #안녕 date = '2023-06-03' print(date[5:7]) #06 list = ["감사","행복","사랑","습관","긍정","변화","성장","공감","희망"] #갯수 print(len(list)) #첫번째값 print(list[0]) #마지막값 print(list[-1]) #처음부터 세번째 값 print(list[:3]) #마지막 앞 단어 print(list[-2]) #행복과 사랑 출력 print(list[1:3]) # enumerate: index, item 순서로 준다. for idx, item in enumerate(list): print(idx,item) for idx, item in enumerate(list): print.. 2023. 6. 3.
2023년6월2일 파이썬공부 - 퇴근후딴짓 님의 유투브 4. 작업형2 예시문제 무작정 따라해보기 - 보면서 따라 쳐 보는 포스팅 https://youtu.be/_GIBVt5-khk #===================================================# # 백화점 고객의 1년간 구매 데이터 # y_train.csv : 고객의 성별 데이터 (학습용), csv 형식의 파일 # gender 1 남성 0 여성 # x_train.csv, x_test.csv : 고객의 상품구매 속성 (학습용 및 평가용), csv 형식의 파일 # 학습용 데이터 y_train.csv, x_train.csv 를 이용하여 성별예측 모형을 만든 후, # 평가용 데이터 x_text.csv 에 적용하여 얻은 고객의 성별예측값 (남자일 확률)을 # 다음과 같은 형식의 csv 파일로 생성하시오. (custid,gender) # 제출한 모델의 성능은 .. 2023. 6. 3.
반응형