반응형 전체 글229 [망포역 편안한 모임장소] 이름에 반전이 있는 곳, 갯벌스타일 안녕하세요~ 오늘은 망포역 로컬들의 맛집! 편안하게 친구들과 만나기 좋은 곳입니다. 바로 갯벌스타일 인데요! 아는 분들은 다 아시는 맛집입니다. 그런데 여기는 주의해야할 점이! 사실 여기는 숯불닭갈비 맛집입니다. ㅋㅋㅋㅋ 저도 처음에 갯벌스타일이라는 이름에 속아서 해산물 요리가 메인인 식당이라고 생각했었는데요. 들어가보시면 바로 아실텐데, 다들 숯불닭갈비를 구워먹고 있습니다. 매장 내부는 이렇게 생겼습니다. 친구들과 편안하게 저녁모임 가지는 분위기에요. 간단하게 맥주를 곁들이기도 좋아요. 다만 연기 나가는 길이 그렇게 강력하진 않아서 ㅋㅋ 나중에 사람들 많아지면 온 가게가 뿌옇게 되는... 뭔지 아시죠? ㅋㅋ 메뉴판!! ㅋㅋ 맨 위에 숯불닭갈비 쓰여있는거 보이시죠 ㅋㅋㅋ 2인분 이상 시켜야해요. 저는 여.. 2022. 2. 28. 주성분분석(PCA)와 밀도기반 군집분석(DBSCAN) 1. PCA 주성분분석. 주성분분석은 차원축소를 하는 여러 가지 방법 중 하나입니다. 고차원에서 일어나는 차원의 저주 문제를 피하기 위하여 고차원을 저차원으로 바꾸게 됩니다. 차원이 많을수록 모든 차원을 충족시킬 수 있는 방법을 찾기 어려워서 원하는 모델을 만들기가 어렵기 때문입니다. PCA란, 기존 데이터의 정보를 최대한 살리면서 차원이 축소된 새로운 좌표 세계를 만들어서 표현하는 방법입니다. 이때 새로운 축은 기존의 변동을 가장 많이 반영하는 방향으로 잡아야 합니다. 이것이 PCA의 알고리즘입니다. 새로 잡은 차원에 대한 축은 서로 독립이며 직각이여야 합니다. 2. DBSCAN 밀도기반 군집분석. 밀도 기반으로 형태에 구애받지 않고 노이즈까지 잡아낼 수 있는 성능 좋은 알고리즘 입니다. DBSCAN에.. 2022. 2. 22. 텍스트마이닝 1. 형태소분석 형태소 분석은 문장을 띄어쓰기 단위로 분리한 것이 아니라 품사별로 한 단어씩 분리한 것입니다. 한글 형태소 분석 라이브러리에는 KoNLPY, 꼬꼬마, Twitter, Komoran등이 있습니다. 라이브러리마다 기능이 약간씩 다르기 때문에 목적에 맞게 골라서 사용해야 합니다. [참고] 세종 태그 세트: 품사의 약자를 정해둔 표준입니다. [참고] JPype는 pip install로 설치하는 것이 아니라, OS 와 python 버전에 맞게 직접 사이트에 가서 다운로드 받아와야 합니다. 2. TF-IDF 단어의 중요도를 평가하는 척도입니다. 문서 분류에 있어 변수로서 역할을 하지 못하는 단어들을 제거하는 전처리 작업에 사용됩니다. 예를 들어 '나는' 등의 단어가 해당하며, stop word 라고.. 2022. 2. 17. 베이즈 정리, 나이브 베이즈 1. 베이즈 정리 A 사건이 일어났을 때 B 사건이 일어날 확률을 계산 할때 (1) 사건들이 서로 독립인 경우와 (2) 사건들이 서로 영향을 미치는 경우를 구분해야 합니다. (2)인 경우 B 사건이 일어날 확률은 높아져야 하기 때문입니다. 이것을 조건부 확률이라고 합니다. A와 B가 연달아 일어날 확률은 P(A) * P(B|A) 로 계산할 수 있으며, P(A) 는 사건 A가 먼저 일어났다는 의미에서 사전확률 P(B|A)는 사건B가 나중에 일어났다는 의미에서 사후확률이라고 합니다. 2. 나이브 베이즈 나이브 베이즈는 주로 텍스트마이닝에서 많이 사용됩니다. 텍스트 분석을 할 때, 어떠한 특정 단어가 나타날 확률을 일일이 구할 수 없으므로 모두 같다고 생각을 하고, 특정 단어가 있을 때 그것이 어떠한 분류에 .. 2022. 2. 15. SVM 알고리즘과 분류기, SVR 알고리즘 1. SVM 알고리즘: Support Vector Machine. 1.1 SVM 장단점 서포트 벡터 머신은 비선형적이고 고차원 공간에서도 성능이 탁월하다는 장점이 있습니다. 그래서 현실 세계의 문제를 풀 때 효과가 좋습니다. 또한 support vector machine은 멀티 클래스 분류도 가능합니다. 보통 의사결정나무로 풀 수 있는 문제는 모두 적용이 가능합니다. 또한 회귀 문제와 같은 연속값을 예측하는 모델에도 적용이 가능합니다. 회귀 문제를 풀 수 있는 SVM을 SVR 이라고 합니다. 단, 수학적인 모델이라서 이해가 어려울 수 있다는 단점이 있습니다. 또한 분류 분석과 회귀 분석은 적용이 가능하지만 SVM의 한계는 확률 분포나 패턴을 흉내 내는 일은 하지 못한다는 점이 있습니다. 1.2 SVM 관.. 2022. 2. 10. 군집분석 Clustering 군집분석은 비감독학습입니다. 그리고 데이터 거리가 반드시 정의되어야 분석이 가능합니다. 데이터 거리란? 거리행렬은 어떤 데이터 포인트와 다른 데이터 포인트 사이의 거리를 표현하는 방법입니다. 거리행렬은 교환법칙이 반드시 성립해야 합니다. 여기서 교환법칙이란 i -> j 의 거리와 j->iㅢ 거리가 같다는 것을 말합니다. i,j 거리와 j,i 거리가 다르면 교환법칙이 성립하지 않습니다. N개의 데이터가 있다면 이론상 N(N-1)/2가지 경우가 나타납니다. 교환법칙이 성립하므로 나누기2를 해줍니다. 가장 기초적이고 많이 쓰이는 방법은 유클리드 거리행렬입니다. 데이터 간의 거리를 계산하는 방법으로는 유클리드 거리, 맨하튼 거리, 민코우스키 거리 등이 있습니다. 양 군집 간 거리 계산 방법 군집 간의 거리를 계.. 2022. 2. 8. KNN(K-Nearest Neighbor) KNN에서 k는 정해줘야 합니다. 비감독학습이 아니라 감독학습입니다. 훈련 데이터에 target값이 있습니다. 분류하려는 타겟과 가장 가까이에 위치한 k개의 점을 먼저 찾아서 확인하고, 다수결로 타겟을 분류합니다. 회귀분석과 결합시키면 연속값 예측도 할 수 있습니다. 즉, 연속/비연속 등 모든 분류 문제에 적용이 가능합니다. I : identifier함수. 괄호 안의 수식이 1이면 참 0이면 거짓 D_x : x를 중심으로 원을 그린 것. 반경집합. argmax_v : 괄호 안 수식의 최대 변수 v를 찾는 것. Weighted KNN 거리를 감안한 KNN 입니다. 거리의 역수나 역수의 제곱의 역수를 가중치로 두는 경우가 많습니다. 거리를 감안하지 않는 방식보다 정확도가 더 높습니다. 이 방법 역시 모든 분.. 2022. 2. 3. [초보자용 Git 설명] Git 기본 개념 및 Git Flow 관련 용어 이해하기 1. Why Git ? 깃을 사용하는 이유! Git은 소스코드의 형상관리를 위한 오픈소스 무료 도구입니다. 형상을 관리한다는 것은 곧 변경점을 관리하는 것을 의미합니다. 서비스 정의서, 요구사항 명세서, 소스코드 등이 모두 형상관리의 대상이 되는데, Git은 그 중에서도 소스코드 관리를 위한 도구입니다. Git은 중앙집중형이 아니라 분산식으로 버전을 관리합니다. 중앙집중형 방식은 네트워크가 안 닿으면 개발을 할 수 없고, 원격서버에 문제가 생기면 소스코드를 복원하는 데에 문제가 생길 수 있습니다. 분산식으로 관리하면 로컬 저장소에서 개발을 하고 테스트를 할 수 있어서 네트워크가 안 닿는 환경에서도 개발을 한 이후에 인터넷이 될 때 소스코드를 원격서버로 올릴 수 있다는 장점이 있습니다. 또한, 원격서버 내.. 2022. 2. 1. 회귀분석 Regression Analysis 1. 회귀분석 회귀분석은 수치값을 예측하는 지도학습입니다. 회귀분석의 종류로는 단순회귀모형, 다중회귀모형, 비선형회귀모형 등이 있습니다. 회귀분석에서 절편은 중요하지 않지만, 기울기는 중요합니다. 기울기가 가파를수록 영향력이 더 크다는 것을 의미합니다. 2. 오차의 수학적 정의 비용함수 Cost Function 오차 = ( 관측값 - 이론치 ) ^2 = 잔차의 제곱 3. 결정계수 R-squared 결정계수는 모형이 얼마나 데이터를 잘 설명하는지, 모델의 결과를 평가하는 계수입니다. 통계학 이론에 의하여 정의되었습니다. 값의 범위는 0에서 1 사이이며, 보통 70% 이상이여야 좋다고 평가됩니다. 단, 결정계수가 너무 높아도 과적합을 의심해야 합니다. 즉, 높을수록 좋기만 한 것은 아닙니다. 2022. 1. 27. 이전 1 ··· 11 12 13 14 15 16 17 ··· 26 다음 반응형