1. 형태소분석
형태소 분석은 문장을 띄어쓰기 단위로 분리한 것이 아니라 품사별로 한 단어씩 분리한 것입니다.
한글 형태소 분석 라이브러리에는 KoNLPY, 꼬꼬마, Twitter, Komoran등이 있습니다. 라이브러리마다 기능이 약간씩 다르기 때문에 목적에 맞게 골라서 사용해야 합니다.
[참고] 세종 태그 세트:
품사의 약자를 정해둔 표준입니다.
[참고] JPype는 pip install로 설치하는 것이 아니라, OS 와 python 버전에 맞게 직접 사이트에 가서 다운로드 받아와야 합니다.
2. TF-IDF
단어의 중요도를 평가하는 척도입니다.
문서 분류에 있어 변수로서 역할을 하지 못하는 단어들을 제거하는 전처리 작업에 사용됩니다.
예를 들어 '나는' 등의 단어가 해당하며, stop word 라고 부릅니다.
TF : Term Frequency.
= 문서 j 에서 단어 i 가 나타나는 빈도수 / 문서 j 에서 나오는 모든 단어의 빈도수
TF는 문서의 수가 많아질 수록 높아질 수 밖에 없어서, 단점이 됩니다.
IDF: Inverse Document Frequency.
= 전체 문서에서 특정 단어가 포함된 문서가 차지하는 비율의 역수.
= log ( 전체문서의 수 / 해당단어i가 포함된 문서의 수)
역문헌 빈도는, 특별한 문서에 나타난 단어일수록 점수가 높게 나옵니다.
TF-IDF = TF * IDF
TF와 IDF 를 곱한 값은, 서로를 보완하는 척도가 됩니다.
ㅡ> 특정 문서 내에서 빈도수가 높을수록 높아짐.
ㅡ> 전체 문서에서는 빈도수가 낮을수록 높아짐.
3. TDM. Term Document Matrix.
TDM은 단어-문서 행렬로, 단어 별로 어떤 문서에서 어떤 빈도수 혹은 어떤 TF-IDF 값을 나타내는지 표현한 것입니다. 문서나 텍스트 별로 중요 단어들에 대한 점수를 나타낸 행렬입니다.
4. Word2Vec
Bag of Words 는 단어의 중요도 및 빈도수 분포로 문서의 성질을 파악할 수 있습니다. 그러나, 단어들 간의 관계와 거리는 구할 수가 없습니다. 이러한 단점을 극복한 것이 Word2Vec입니다.
Word2Vec은 단어를 원하는 사이즈의 벡터 형식으로 임베딩한 것입니다.
윈도우 사이즈를 결정하고, 그 윈도우 범위 안에 포함되는 주변 단어를 예측하는 신경망 모델입니다.
중심 단어에서 주변 단어를 예측하는 모델은 Skip-gram이라고 합니다.
워드 투 벡터 모델은 가중치 행렬을 재구성하여 2차원 공간에 나타내게 됩니다.
'IT,SW,Data,Cloud,코딩' 카테고리의 다른 글
파이썬 공부 1 (0) | 2022.08.22 |
---|---|
[자격증 공부] Salesforce Certified Marketing Cloud Administrator 정보 및 시험 준비, 그리고 합격 후기 (14) | 2022.04.29 |
[AWS 공부] AWS 솔루션 살펴보기 + AWS 웹서버 아키텍쳐 및 로드밸런싱 기초 내용 (0) | 2022.04.26 |
주성분분석(PCA)와 밀도기반 군집분석(DBSCAN) (0) | 2022.02.22 |
베이즈 정리, 나이브 베이즈 (0) | 2022.02.15 |
SVM 알고리즘과 분류기, SVR 알고리즘 (0) | 2022.02.10 |
군집분석 Clustering (0) | 2022.02.08 |
KNN(K-Nearest Neighbor) (0) | 2022.02.03 |
댓글