본문 바로가기
IT,SW,Data,Cloud,코딩

상관분석이란? 상관계수 결과 해석

by 착실하게 2021. 4. 19.
반응형

상관분석과 산점도

상관계수 산출 시, 산점도를 함께 파악해야 합니다. 

 

상관계수의 개념 

두 변수의 평균을 기준으로 관측치가 나타내는 공간을 4등분 했을 경우 관측치의 산포도를 뜻합니다. 

상관계수가 0이라면 사분면에 고르게 나타나므로 원형과 비슷한 산점도를 보입니다. 

 

상관계수 해석 시의 주의점

상관계수가 크다고 해도 인과관계에 있음을 뜻하지는 않습니다. 

상관관계는 같은 방향으로 움직이는 경향이 있다는 것을 뜻할 뿐입니다. 

 

또한, 상관계수는 직선관계만 파악해줍니다.

상관계수가 작다고 해서 두 변수간의 관계가 없는 것은 아닙니다.

예를 들어 2차 함수 U 자 형의 관계에 있는 데이터는 상관계수는 작게 나타날 테지만 두 데이터의 관계는 분명히 존재합니다. 

 

또한 절대값이 1에 가까워도 뚝 떨어져 있는 아웃라이어 1개 데이터가 영향을 크게 줄 수 있습니다. 1개 아웃라이어만 제외시키면 상관관계가 없는 데이터임에도 불구하고 마치 두 변수 간에 선형성이 존재하는 것처럼 상관계수 결과가 나오도록 될 수 있습니다. 

 

또한 상관계수는 기울기와 관계 없습니다. 

 

상관계수의 종류 

피어슨 상관계수 Pearson  Interval (등간형) 또는 Ratio (비율형) 
스피어만 순위 상관계수 Spearman Ordinal (순서형) 
켄달 순위 상관계수 Kendall Ordinal (순서형) 

피어슨과 스피어만은 모양이 거의 같습니다. 계산 방식이 비슷합니다. 

스피어만과 켄달은 두 연속형 변수의 분포가 정규분포를 심하게 벗어날 경우의 상관관계 측정 시에도 사용이 가능합니다. 

 

Brightics 에서 Correlation 함수 사용 

우선, 데이터에 null이 있으면 안 됩니다.

Correlation 함수를 사용하기 전에 데이터에 대하여 delete missing data를 해줍니다.

input 에는 상관관계를 파악하려는 컬럼을 넣어줍니다. 

Precision 부분은 값을 더 자세하게 보려면 숫자를 크게 넣어주면 됩니다. 

 

correlation results 에서 0.98 위의 별 표시는 유의수준을 나타냅니다.

많을수록 더 정밀한 유의수준임을 뜻합니다. 

별이 1개면 0.05 보다 작은값 별이 2개면 0.01보다 작은 값, 세 개면 0.001 보다 작은 값을 가진 것을 뜻합니다. 

 

피어슨 pearson 

 

여기서의 귀무가설은 상관관계가 없다는 것이 귀무가설입니다.

검정결과를 보여주는 correlation table 에서 이 데이터는 p-value 가 0.0 이므로 0.05보다 낮아서 귀무가설을 기각할 수 있습니다. 즉 상관관계가 있다고 볼 수 있습니다. 

 

켄달 kendall 

실제 상황에서의 사용 케이스는 예를 들어 여러 명의 면접관이 여러 명의 지원자를 평가할 때, 

점수는 다르더라도 지원자를 줄 세운 순서는 면접관들이 모두 같을 수 있고, 그렇다면 지원자를 평가한 내용이 같기 때문에 큰 문제는 없을 것입니다. 

그런데, 면접관들 중에 점수를 후하게 주는 면접관이 있고 짜게 점수를 주는 면접관이 있을 때, 

같은 점수일지라도 면접관마다 지원자를 줄 세운 순서가 다를 때, 점수를 후하게 주는지에 따라 랭킹이 달라질 수도 있습니다. 

따라서 순위 일치의 정도를 활용해서 구하는 것이 켄달 상관계수 입니다. 

 

켄달 상관 계수를 구하는 방법은 약간의 설명이 필요합니다. 

먼저 상관계수 tau 타우를 구하는 식은 다음과 같습니다.

tau = ( concordant 수 - discordant 수 ) / ( concordant 수 + discordant 수 ) 

 

지원자 번호 면접관 A의 점수 면접관 B의 점수 concordant discordant
2 69 74 4 0
4 75 80 3 0
5 84 89 1 1
1 87 81 1 0
3 98 95 - -

concordant수와 discordant수를 구하는 방법은 다음과 같습니다.

데이터는 면접관 A의 점수에 따라 정렬되어 있는 상태입니다. 

 

먼저, 지원자 번호 2번에 대하여 면접관 A는 69점을 줬는데, 

이 69점이라는 점수를 75점, 84점, 87점, 98점과 각각 비교합니다. 모두 69점보다 비교대상이 증가/증가/증가/증가하여 4개의 증가입니다. 

동일 지원자에 대하여 면접관 B는 74점을 줬는데,

이 74점이라는 점수를 80점,89점,81점,95점과 비교합니다. 모두 74점보다 증가/증가/증가/증가한 점수로 4개의 증가입니다. 

결론적으로 지원자 번호 2번에 대하여 4개의 증가로 4번의 일치가 있었으며 이것이 concordant 수가 됩니다. 불일치는 없어서 discordant는 0개가 됩니다. 

 

한편, 지원자 번호 5번에 대하여 면접관 A는 84점을 줬는데, 이것은 87점과 98점과 비교하면 증가/증가 입니다. 

면접관 B는 89점을 줬는데, 이것은 81점과 95점과 비교하면 감소/증가입니다. 1개는 일치하고 1개는 불일치했습니다. 그러면 concordant는 1개 discordant는 1개입니다. 

 

그러면 이제 tau를 구해보겠습니다. 

concordant수는 4 + 3 + 1 + 1 = 9 입니다. 

discordant 수는 1개 입니다. 

tau = 9 - 1 / 9 + 1 = 0.8 입니다. 

 

이렇게 해서 correlation 함수를 돌렸을 때 p-value가 0.05보다 큰 값이 나온다면, 통계적으로 유의미한 값이 아니라는 뜻이 됩니다.

피밸류를 낮추기 위해서는 데이터의 갯수를 늘리는 것이 도움이 될 수도 있습니다. 

반응형

댓글