추론통계의 기본
귀무가설 Null Hypothesis
관습적이고 보수적인 주장
대립가설 Alternative Hypothesis
적극적으로 입증하려는 주장. 차이가 있음, 관계가 있다
검정통계량 t-value
귀무가설이 참이라는 가정 하에 계산한다.
알려진 확률분포를 따르도록 설계한다. 검정통계량도 통계량의 일종으로 샘플 특징을 담은 것이다.
t-value가 커진다는 얘기는 평균보다 멀리 떨어진 꼬리 쪽에 값이 나타난다는 말입니다.
즉 t-value가 클수록 귀무가설을 기각하고 대립가설을 채택할 확률이 높아질 것입니다.
p-value
귀무가설이 참일 때 관측자에 의한 검정통계량 추정치보다 극한값을 얻은 확률을 말합니다.
특이함의 정도를 표현하며, 데이터가 특이할수록, 즉 대립가설에 가까울수록 p-value가 작아집니다.
오류
오류의 구분 | 실제 현상 | ||
귀무가설이 참 | 귀무가설이 거짓 | ||
의사결정 | 귀무가설 채택 | 올바른 의사결정 | 2종 오류 (beta) |
귀무가설 기각 | 1종 오류 (alpha) | 올바른 의사결정 검정력 |
유의수준
1종 오류의 한계 허용치를 유의수준이라고 한다.
1종 오류가 더 위험하기 때문에, 최대 허용치를 정해둔 것이다. 여기서 유의란, 우연이 아니라는 의미에서 유의라고 합니다. 보통 5% 유의수준에서 처리합니다.
가설검정의 목표는 1종 오류를 제한하면서 검정력을 최대화 하는 것입니다.
p-value가 유의수준보다 작으면 귀무가설을 기각하면 됩니다.
단측검정과 양측검정
크다 작다와 같이 방향이 있다면 단측검정입니다. 기각역이 한쪽에 있으면 단측검정이란 뜻입니다.
같다 또는 같지 않다와 같이 방향이 없으면 양측검정. 기각역이 양쪽에 있으면 양측검정입니다.
t-test
평균검정을 위한 가설검정 방법입니다.
즉, 평균을 검정하는 것이 목표입니다.
One Sample t-test
모집단은 정규분포라고 가정합니다.
평균을 특정한 값과 비교해보는 검정입니다.
우리의 표본의 평균과 알려져있는 모평균의 차이가 클수록, 표본평균의 변동(표준오차)이 작을수록,
검정통계량 값은 커지고, p-value가 작아집니다. 즉 나타날 확률이 작은 값이 된다는 뜻입니다.
>> 결과해석
t-value는 검정통계량 추정치가 이 값이 나왔다는 의미입니다. 평균/표준편차를 표준화시켜서 평균이 0이고 표준편차가1인 분포로 정규화했을때, 우리의 데이터에서 얻은 평균 값은 t-value 만큼 평균인 0으로부터 떨어져 있다는 뜻입니다.
p-value는 유의수준보다 작은지만 체크하면 됩니다. 대립가설을 어떻게 놓느냐에 따라서 귀무가설을 기각할만한 충분한 근거가 있는지를 봅니다.
** 여기서 사용한 툴은 Brightics 라는 솔루션 입니다.
솔루션에 대한 궁금점은 www.brightics.ai/kr <ㅡ 여기를 참고해 주세요. **
예를 들어 이 데이터의 경우, 실제 평균이 15 입니다.
이 데이터를 one sample t-test로 살펴볼 때, hypothesized mean에 실제 평균인 15를 넣어본다면
15보다 크다는 가설도, 15보다 작다는 가설도, (이 두가지는 단측검정의 형태입니다)
15와 같지 않다는 가설까지 (이 부분은 양측검정입니다)
세 가지의 모든 가설에 대해서 p-value 가 유의수준인 0.05 보다 큰 결과가 나옵니다.
즉, 귀무가설을 기각할 수 없다는 결론이 내려집니다.
다시말해, 기각할 수 없으므로, 귀무가설을 채택해야 한다는 뜻이고 대립가설을 채택할 수 없다는 말입니다.
사실, 귀무가설에서 설정한 15가 이 데이터의 진짜 평균이었기 때문에 귀무가설이 채택된 것입니다.
다른 데이터로 one sample t-test 를 한번 더 살펴보겠습니다.
여기서는 t-value 가 8.54로 아주 크게 나왔습니다.
그리고 p-value는 3.2로 나온 것이 아니고, 그 뒤의 e의 -14승이 붙어있다는 점을 놓치면 안 됩니다. 아주아주 작은 값으로 나온 것입니다. 즉 귀무가설을 기각할 수 있다는 뜻입니다.
다시말해 이 temperature 데이터의 평균은 97.7이 아니라는 뜻입니다.
Paired t-test
이 검정은 대응되는 두 집단의 차이를 비교하는 방식입니다. 동일하거나 유사한 집단인 경우 사용하는 검정입니다.
이 검정에 사용할만한 데이터는 항상 짝으로 움직이는 두 개의 집단에 대해 사용합니다.
짝을 지어 마치 한 쌍처럼 연구대상이 되는 경우에 활용해야 합니다.
결국 모집단은 한개로 취급하게 됩니다.
예를 들어 동일 개체의 before 와 after 를 비교한다거나, (10년 전과 지금의 비교, 전월과 이번달의 비교 등)
또는 동일 기간 동안에 대리점 1번과 대리점 2번의 매출액의 차이가 같다거나 다르다거나 하는 데이터 등과 관련있는 검정방법입니다.
데이터셋이 2개가 주어지는데 이 2개의 차이값을 계산한 것들에 대한 평균을 검정하는 형태입니다.
각 데이터셋의 평균을 구하는 것이 아닙니다.
Data A | difference (차이) | Data B |
x-11 | d1 | x-21 |
x-12 | d2 | x-22 |
(중략) | (중략) | (중략) |
x-1n | dn | x-2n |
차이의 평균 avg(dn) 을 검정한다. |
paired t-test는 결국 이러한 차이 (difference) 데이터셋을 one sample t-test 하는 것과 동일합니다.
검정통계량과 p-value에 영향을 미치는 두 가지 요인은 다음과 같습니다.
표본의 차이 평균과, 모평균의 차이가 클수록 검정통계량 값이 커지고 p-value가 작아집니다.
표본평균의 변동이 (표준오차)가 작을수록 검정통계량 값이 커지고 p-value가 작아집니다.
브라이틱스 솔루션의 paired t-test에서 First Column과 Second Column은 순서를 바꾸어도 크리티컬한 오류는 없겠지만 값이 양수인지 음수인지에는 영향을 줄 수 있으며, 데이터에 따라서 의미가 다를 수도 있습니다. 보통 First Column에 값이 더 큰 것을 매칭하는 것이 유리하다고 합니다.
위의 paired t-test 결과에서 p-value가 0.0002이므로 0.05보다 작기 때문에 귀무가설을 기각하게 됩니다.
hypothesized difference에 0을 넣었다는 뜻은 A와 B의 차이값의 평균은 0이다, 즉 둘은 차이가 없다, 차이가 0이라는 귀무가설을 수립했다는 뜻이고, 이를 기각하게 되므로 차이가 있다는 대립가설을 채택하게 됩니다.
promotion 여부에 따라서 다른지를 살펴보게 위해서 group by 부분에 prom_yn 을 넣어주고 결과를 살펴보겠습니다.
프로모션 = N (안한 경우)에는 p-value 가 0.05보다 크기 때문에 차이가 없다는 귀무가설을 기각할 수 없게 됩니다. 다시말해 귀무가설을 채택해야 합니다. 즉 평균에 차이가 없다는 귀무가설을 채택하게 됩니다.
프로모션을 한 경우에는 p-value가 아주 작은 값이 되기 때문에 귀무가설을 기각할 수 있고, 즉 프로모션을 한 경우 first column과 second column에 넣은 두 개 컬럼의 차이의 평균이 0이 아니라는 결론을 내리게 됩니다. 다시 말해 차이가 난다는 뜻입니다.
Two Sample t-test
두 개 그룹간의 평균에 차이가 나는지를 보는 검정입니다.
paired t-test 와의 차이가 있습니다. paired의 경우는 짝의 갯수가 맞아야 하지만 two sample은 데이터의 갯수가 짝이 맞지 않아도 괜찮습니다. 샘플 각각의 평균값을 찾아서 그 두 개의 평균 값을 비교하는 것이기 때문입니다.
또 하나의 차이가 더 있습니다. 브라이틱스에서 paired t-test를 사용할때 데이터는 비교하려는 데이터가 양 옆으로 쌓여있어야 합니다. 그래서 짝을 지을 수 있어야 했습니다. 그런데 two sample t-test를 사용할때에는 데이터가 위아래로 쌓여있어야 합니다. 한 개의 컬럼안에 들어가 있어야 합니다. 아래의 캡쳐를 참고하면 됩니다.
그런데 두 개의 그룹의 평균값을 각각 구했을 때, 그 둘의 차이가 동일한 경우이더라도
실제로 데이터의 해석은 달라집니다.
데이터셋의 분산/표준편차에 따라서 다르게 봐야합니다.
아래 그림을 보면 그 뜻이 명확해집니다.
위의 세 개의 케이스에 대해서 보았을 때, 각 그룹의 평균의 차이를 구했을 때, 세 개의 케이스에서 그 차이값은 모두 절대적인 값의 기준으로는 동일하지만, 세 개의 케이스에서 데이터셋의 동질한 정도, 즉 데이터의 변동이, 다시말해 표준편차가 다르기 때문에, 해당 데이터셋 대비 그 평균의 차이는 해석이 달라진다는 것입니다.
즉, 변동을 같이 봐야합니다.
two sample t-test에는 세 가지 가정이 있는데요,
독립성, 정규성, 등분산성이 그것입니다.
여기서 독립성은 각 관측값이 서로 영향을 주지 않아야 한다는 가정입니다.
정규성은 데이터 모수 사이즈가 커지면 해결이 되고,
등분산성(Equal Variance)은 데이터가 등분산인지 아닌지의 여부에 따라 분석방법이 달라지는데, 브라이틱스 스튜디오에서는 오토로 된다고 합니다.
그럼 이제 브라이틱스 스튜디오에서 Two Sample t-test를 돌릴 때 넣는 값들을 간단히 살펴보겠습니다.
먼저 Response Columns에 넣는 것은 분석하려는 컬럼을 넣으면 됩니다.
Factor Column은 비교기준이 되는 컬럼입니다.
Alternatives는 단측검정과 양측검정 설명을 참고하시면 되고 컨피던스 레벨은 유의수준과 p-value설명을 참고하시면 됩니다.
First와 Second에 넣는 것은 Factor Column에 넣은 그 컬럼에 들어있는 데이터의 2가지 종류 값을 넣으면 됩니다. 예를 들어 prom_yn 이라는 프로모션 여부를 Y와 N으로 표현한 컬럼이 Factor이면 Y와 N의 값을 First와 Second에 넣어주면 됩니다. 주의할 점은 Y와 N이 String이더라도 여기에 넣을 때는 따옴표 없이 넣어줍니다.
Assume Equal Variances 부분은 Auto를 선택해줬습니다. 분산이 같은지 계산한 이후에 적절히 세팅해주는 옵션입니다.
위 검증 결과 p-value가 유의수준보다 작기 때문에 귀무가설을 기각해줍니다.
true difference in menas > 0 부분의 뜻은, 프로모션을 하면 평균값이 커진다는 대립 가설인데, 귀무가설을 기각한다는 검증 결과가 나왔으므로, 이 대립가설을 채택해주어서 프로모션을 하면 평균값이 커진다는 결론을 채택할 수 있습니다.
프로모션 한 것과 하지 않은 것은 평균값이 같지 않다는 대립 가설 또한 채택할 수 있습니다.
또 다른 데이터로 한번 더 살펴보겠습니다.
주의할 점이 있습니다.
First와 Second에 넣는 값은 1인지 1.0인지도 체크해서 동일하게 넣어줘야 합니다.
이걸 만약 다르게 넣은 경우 에러메시지는 divison by zero로 표시될 수도 있습니다.
p-value가 0.05보다 작으므로 귀무가설을 기각하고 대립가설을 채택할 수 있습니다. 즉 두 샘플의 평균의 차이는 0이 아니다. 즉 두 샘플 평균 간에 차이가 있다는 결론을 내릴 수 있습니다.
'IT,SW,Data,Cloud,코딩' 카테고리의 다른 글
빅데이터분석기사 필기 시험준비 - 나만의 암기포인트 (0) | 2021.09.30 |
---|---|
머신러닝 초보자를 위한 강의와 책 추천 (0) | 2021.08.26 |
개발자이직 알아볼 때 점핏(jumpit) 플랫폼 사용하면 편리해요! (0) | 2021.07.27 |
JAVA와 객체지향프로그래밍 (0) | 2021.05.31 |
Brightics 사용법 /초보자용 꿀팁 (0) | 2021.05.19 |
Logistic Regression, kNN(k-Nearest Neighbor), Naive Bayes (0) | 2021.04.21 |
상관분석이란? 상관계수 결과 해석 (0) | 2021.04.19 |
평균 비교 검정/ Bartlett's Test - One Way ANOVA - Tukey's Range Test (0) | 2021.04.19 |
댓글