본문 바로가기
반응형

분류 전체보기225

SVM 알고리즘과 분류기, SVR 알고리즘 1. SVM 알고리즘: Support Vector Machine. 1.1 SVM 장단점 서포트 벡터 머신은 비선형적이고 고차원 공간에서도 성능이 탁월하다는 장점이 있습니다. 그래서 현실 세계의 문제를 풀 때 효과가 좋습니다. 또한 support vector machine은 멀티 클래스 분류도 가능합니다. 보통 의사결정나무로 풀 수 있는 문제는 모두 적용이 가능합니다. 또한 회귀 문제와 같은 연속값을 예측하는 모델에도 적용이 가능합니다. 회귀 문제를 풀 수 있는 SVM을 SVR 이라고 합니다. 단, 수학적인 모델이라서 이해가 어려울 수 있다는 단점이 있습니다. 또한 분류 분석과 회귀 분석은 적용이 가능하지만 SVM의 한계는 확률 분포나 패턴을 흉내 내는 일은 하지 못한다는 점이 있습니다. 1.2 SVM 관.. 2022. 2. 10.
군집분석 Clustering 군집분석은 비감독학습입니다. 그리고 데이터 거리가 반드시 정의되어야 분석이 가능합니다. 데이터 거리란? 거리행렬은 어떤 데이터 포인트와 다른 데이터 포인트 사이의 거리를 표현하는 방법입니다. 거리행렬은 교환법칙이 반드시 성립해야 합니다. 여기서 교환법칙이란 i -> j 의 거리와 j->iㅢ 거리가 같다는 것을 말합니다. i,j 거리와 j,i 거리가 다르면 교환법칙이 성립하지 않습니다. N개의 데이터가 있다면 이론상 N(N-1)/2가지 경우가 나타납니다. 교환법칙이 성립하므로 나누기2를 해줍니다. 가장 기초적이고 많이 쓰이는 방법은 유클리드 거리행렬입니다. 데이터 간의 거리를 계산하는 방법으로는 유클리드 거리, 맨하튼 거리, 민코우스키 거리 등이 있습니다. 양 군집 간 거리 계산 방법 군집 간의 거리를 계.. 2022. 2. 8.
KNN(K-Nearest Neighbor) KNN에서 k는 정해줘야 합니다. 비감독학습이 아니라 감독학습입니다. 훈련 데이터에 target값이 있습니다. 분류하려는 타겟과 가장 가까이에 위치한 k개의 점을 먼저 찾아서 확인하고, 다수결로 타겟을 분류합니다. 회귀분석과 결합시키면 연속값 예측도 할 수 있습니다. 즉, 연속/비연속 등 모든 분류 문제에 적용이 가능합니다. I : identifier함수. 괄호 안의 수식이 1이면 참 0이면 거짓 D_x : x를 중심으로 원을 그린 것. 반경집합. argmax_v : 괄호 안 수식의 최대 변수 v를 찾는 것. Weighted KNN 거리를 감안한 KNN 입니다. 거리의 역수나 역수의 제곱의 역수를 가중치로 두는 경우가 많습니다. 거리를 감안하지 않는 방식보다 정확도가 더 높습니다. 이 방법 역시 모든 분.. 2022. 2. 3.
[초보자용 Git 설명] Git 기본 개념 및 Git Flow 관련 용어 이해하기 1. Why Git ? 깃을 사용하는 이유! Git은 소스코드의 형상관리를 위한 오픈소스 무료 도구입니다. 형상을 관리한다는 것은 곧 변경점을 관리하는 것을 의미합니다. 서비스 정의서, 요구사항 명세서, 소스코드 등이 모두 형상관리의 대상이 되는데, Git은 그 중에서도 소스코드 관리를 위한 도구입니다. Git은 중앙집중형이 아니라 분산식으로 버전을 관리합니다. 중앙집중형 방식은 네트워크가 안 닿으면 개발을 할 수 없고, 원격서버에 문제가 생기면 소스코드를 복원하는 데에 문제가 생길 수 있습니다. 분산식으로 관리하면 로컬 저장소에서 개발을 하고 테스트를 할 수 있어서 네트워크가 안 닿는 환경에서도 개발을 한 이후에 인터넷이 될 때 소스코드를 원격서버로 올릴 수 있다는 장점이 있습니다. 또한, 원격서버 내.. 2022. 2. 1.
회귀분석 Regression Analysis 1. 회귀분석 회귀분석은 수치값을 예측하는 지도학습입니다. 회귀분석의 종류로는 단순회귀모형, 다중회귀모형, 비선형회귀모형 등이 있습니다. 회귀분석에서 절편은 중요하지 않지만, 기울기는 중요합니다. 기울기가 가파를수록 영향력이 더 크다는 것을 의미합니다. 2. 오차의 수학적 정의 비용함수 Cost Function 오차 = ( 관측값 - 이론치 ) ^2 = 잔차의 제곱 3. 결정계수 R-squared 결정계수는 모형이 얼마나 데이터를 잘 설명하는지, 모델의 결과를 평가하는 계수입니다. 통계학 이론에 의하여 정의되었습니다. 값의 범위는 0에서 1 사이이며, 보통 70% 이상이여야 좋다고 평가됩니다. 단, 결정계수가 너무 높아도 과적합을 의심해야 합니다. 즉, 높을수록 좋기만 한 것은 아닙니다. 2022. 1. 27.
의사결정트리: 엔트로피, 정보이득, 지니계수, 카이제곱스퀘어 0. 의사결정트리 의사결정트리의 기본적인 목표는 범주형 데이터를 예측하는 것입니다. 리그레서를 붙여서 연속형도 처리 가능합니다. 의사결정나무의 리프에 해당하는 변수는 예측하려는 목표 값입니다. 예를 들어 어떤 속성에서의 YES/NO 등이 될 수 있습니다. 의사결정트리 알고리즘의 종류에는 CART, C4.5, C5.0 등이 있습니다. 이러한 알고리즘들은 공통적으로 다음과 같은 특성들이 있습니다. 1) 엔트로피를 사용 2) 지니계수 사용 3) 데이터를 나누는 방법 4) 가장 영향력이 큰 속성으로 분류 1. 엔트로피의 개념 의사결정트리에서 데이터를 나누는 기준을 선택할 때는 엔트로피가 가장 크게 줄어드는 기준으로 나누어야 합니다. 엔트로피는 확률p와 확률p에 밑이 2인 로그를 취한 값을 곱한 후 모두 더한 기.. 2022. 1. 25.
도커, 컨테이너, 쿠버네티스, 마이크로서비스, 데브옵스 1. 도커, 컨테이너, 그리고 쿠버네티스 [ 컨테이너 기술이란? ] 먼저 애플리케이션 소스코드를 개발한 이후, 컨테이너를 위한 이미지로 생성합니다. 컨테이너 이미지란, 라이브러리, 실행파일이 포함된 패키지 파일을 의미합니다. [도커란? 도커의 장점은? ] 도커는 이러한 컨테이너 이미지를 통해 컨테이너를 실행 하고 애플리케이션이 실행됩니다. 도커가 물리서버에 있든 클라우드에 있든 애플리케이션 실행이 가능해지므로 이식성이 높습니다. 도커가 나오기 전에는, 예를 들어 가상서버를 사용하는 환경에서는 각 환경에 맞게 가상머신 이미지를 생성해야 했었는데, 컨테이너 도입 이후에는 컨테이너 이미지 하나로 aws, 애져 등 서비스 업체 환경에 상관없이 사용이 가능해졌습니다. 도커와 컨테이너를 쓰면 좋은 점들에는, 컨테이.. 2022. 1. 20.
클라우드 서비스의 개념과 종류, 그리고 클라우드 아키텍쳐의 구조 [클라우드란? ] 클라우드는 2006년 아마존이 aws라는 이름으로 가장 처음 출시했다고 합니다. 미국 소비의 절반 가량이 땡스기빙과 크리스마스 시즌에 발생하는데 일년내내 인프라를 유지하는 것이 비효율적이라는 이유에서 그 해결책으로 등장한 것입니다. 클라우드 시장 규모는 작년 연말 기준 약 45조 이고 국내 시장 규모는 약 2조 정도인 것 같습니다. [클라우드 사업자의 종류는? ] 클라우드 사업자의 종류는 CSP, MSP, ISP의 세 가지 입니다. CSP는 Could Service Provider 입니다. CSP에는 아마존, 애저, 구글, 알리바바, IBM, 세일즈포스, 텐센트, 오라클 등이 있습니다. MSP 업체는 클라우드 도입을 지원하는 역할입니다. CSP의 기술을 도입하는 것을 컨설팅해주는 사업입.. 2022. 1. 13.
[가로수길 야키니쿠] 겐세이 아니고 '킨세이' 안녕하세요~ 오늘은 야키니쿠 좋아하시는 분들이 관심 있으실 것 같은 장소에요. 바로 가로수길 야키니쿠 킨세이 후기입니다. 협찬 없이 제 돈으로 직접 다녀온 내돈내산, 내돈내먹 솔직리뷰 입니다. 그럼~~ 가보실까요~?? 야키니쿠 화로가 다 이렇게 뜨거운가요? 얼굴까지 익혀버릴 것 같은 열기!! 겨울이라 추운데 있다가 들어와서 손을 녹이기엔 좋았는데 얼굴이 너무 뜨거웠어요 ㅋㅋㅋ 주문은 이렇게 키오스크로 할 수 있어요. 왠지 언어 설정도 할 수 있을 것 같은데... 외국인 친구들이 와서 먹기에는 편리할 것 같아요. 사진도 곁들여져 있으니까요. 그리고 직원 부르는 거 잘 못하시는 분들도 이런 키오스크가 편리하게 느껴지실 것 같아요. 심지어 가위같은것도 이 키오스크에서 주문할 수 있게 되어 있거든요. 코로나 시.. 2022. 1. 6.
반응형