놀고 싶어요

[R Programming] 분산분석 본문

R

[R Programming] 분산분석

챌린지 2021. 5. 17. 14:48
  1. 이표본 t-검정과 분산분석(ANOVA)의 유사성과 차이점
  2. 분산분석 단계인 등분산 분석, 분산분석, 사후분석
  3. 분산분석을 위해 Bartlett’s Test, One-way ANOVA, Tukey’s Range Test 함수 활용

 

5개 구의 데이터 비교시 two sample t-test 사용불가 (2개 넘게 비교하므로)

 

t-test는 2개의 그룹만 상호 비교한다.

2개 이상 데이터 그룹 비교하기 위해서는 분산분석(ANOVA: analysis of variance)를 사용한다.

(ANOVA를 2개 그룹 비교시 사용해도 상관없다.)

 

 

평균을 비교하는데 왜 갑자기 분산분석을 사용하지?

분산은 평균을 찾은 후에 데이터들이 평균으로부터 평균적으로 얼마나 떨어져 있는지 나타낸다.

다시 말하면 평균이 없으면 분산도 없으며, 평균이 2개 있을 때 ‘통계적으로 서로 다르다’는 것은 결국 두 평균의 분산이 겹치지 않는다는 것을 뜻하기 때문에 t-test와 분산분석의 목적은 모두 평균 비교라고 생각하면 된다.

 

 

 

분산분석의 3단계

  1. 등분산 분석(Bartlett’s Test)
  2. 분산분석 (One-way ANOVA)
  3. 사후분석 (Tukey’s Range Test)

 

 

등분산 분석

여러 그룹의 분산이 같은지 확인한다.

확인 방법은 가설 검정의 방법을 그대로 사용한다. 가설 검정 방법대로 귀무가설(모든 그룹의 분산은 같다) 정의

유의수준 0.05 가정하에 분석 결과로 얻은 p-value를 유의 수준과 비교하였을 때

p-value가 유의수준보다 같거나 크면 귀무가설을 기각할 수 없고

p-value가 유의수준보다 작으면 귀무가설을 기각한다.

 

귀무가설을 기각한다?

-> 모든 그룹의 분산이 같지 않다. 

 모든 그룹이 등분산임을 가정할 수 있으면 분산분석을 할 수 있고 그렇지 않으면 다른 방식의 분석(비모수분석)을 수행해야 한다.

 

분산분석을 하고자 하려면 첫 단계의 분석 결과가 귀무가설을 기각하지 않아야 한다.

첫 번째 단계에서 등분산이 확인되면 두 번째 단계인 분산분석으로 넘어간다.

 

 

등분산이 나오지 않을 경우

  • 비모수적 분석 방법 사용 

비모수적 - 평균, 분산, 표준편차 등 통계량에 근거한 추론 방법을 사용하지 않는 것

  • 데이터에 보완할 점 있는지 검토

대개의 경우 데이터가 충분하지 않은 경우이다.

 

p-value를 보고 판단하는 방식은 동일한다.

p-value < 2.2e-16

-> 0.05보다 작은 값으로 귀무가설 기각한다. 

“모든 그룹이 등분산이 아니다” = “모든 그룹이 같은 분산을 가지고 있지 않다.”

 

 

Bartlett’s Test 결과 귀무가설을 기각하지 못하면 ANOVA test를 수행한다.

ANOVA 결과로 귀무가설이 기각되면 어떤 그룹은 평균이 같지 않다는 의미이고, ANOVA 결과로 귀무가설을 기각하지 못하면 모든 분산은 같다는 의미이며 사후분석 수행이 불필요하다. 

 

 

 

분산분석

분산 분석의 귀무가설은 ‘모든 그룹의 평균이 같다.’ 이다

(대립가설은 어느 그룹의 평균은 같지 않다.)

유의수준 0.05 가정하에 분석 결과로 얻은 p-value를 유의 수준과 비교하였을 때

p-value가 유의수준보다 같거나 크면 귀무가설을 기각할 수 없고

p-value가 유의수준보다 작으면 귀무가설을 기각한다.

 

분산분석의 문제는 어떤 그룹의 평균이 다른지는 알려주지 않는다.

-> 사후분석 이 필요하다.

 

 

F value Pr(>F)

37.76 <2e-16 ***

-> 0.05보다 작은 값으로 귀무가설 기각한다. “어느 그룹의 평균은 같지 않다”

-> “5개 구의 이동거리 평균은 같지 않다.”

 

 

 

 

사후분석

그룹별 평균을 일일이 비교해 평균이 같은 그룹과 다른 그룹을 구분하여 알려줌

 

 

Tukey HSD (Honestly Significant Difference)

평균이 같은 그룹과 다른 그룹을 나누어   있는지 확인하는 방법  하나

5개 구를 두 개씩 짝지어서  각각 평균이 같다고 볼 수 있는지 검정하고 요약한 것

p-adj컬럼 값이 0.05 보다 작은 경우 귀무가설을 기각, 큰 경우는 귀무가설을 채택한다.

은평구-영등포구만 같고 다른 모든 구는 같지 않다.

 

사후분석은 ANOVA 귀무가설이 기각되었을 구체적으로 어느 그룹의 평균이 다른지 확인하기 위한 것이다.