놀고 싶어요

[R Programming] 가설검정과 t-검정 본문

R

[R Programming] 가설검정과 t-검정

챌린지 2021. 5. 14. 20:57

LED조명 수명이 5년이라고 써있으면 어느 조명은 5년보다, 다른 조명은 5년 훨씬 넘게 유지되는 경우가 있다.

영어 성적 10점 향상되는 강의를 들어서 정말 10점이 오르는지???

같은 선생님에게 수업을 듣는 다른 반 학생들의 성적은 같은지??

이 모두 평균을 비교하는 문제이다.

(t-test는 평균값에 대한 검정이다.)

 

one sample t-test 일표본 t-test

: 표본의 평균이 모집단의 평균과 같은지 검정

두개의 샘플 데이터를 가지고 각각 평균을 구하는 과정 대신에 하나는 알려진 값으로 평균값이 제시되고 다른 하나는 데이터로 제시되어 평균을 구한 다음 알려진 평균값과 계산한 표본 평균을 비교하는 것이다. (하나는 값 다른 하나는 데이터)

ex) LED전구의 평균 수명이 3만 시간이라는 주장과 샘플 평균의 비교

 

paired t-test 대응표본 t-test

: 대응하는 두 표본의 평균 차이가 특정값과 같은지 비교. 이전과 이후를 비교하여 변화가 있는지 비교. 두 데이터 세트 before-after 비교

ex) 특정 기법으로 학습하기 전 시험 성적과 학습 이후의 시험 성적의 비교.

 

two sample t-test 이표본 t-test

: 두 표본의 평균이 같은지 검정. 두 데이터 세트를 갖고 비교

ex) 마포구 대여자전거 이동거리와 영등포구 대여자전거 이동거리의 차이 

 

 

 

 

두 개의 그룹의 데이터에서 평균을 계산하고 

같은 모집단에서 나오는 다른 샘플의 평균이라서 통계적으로 의미있게 비슷한 값인지 판단한다.

-> 가설검정 t-검정 이 사용된다.

 

가설검정

-귀무가설(기존의 주장)

'없다', '같다'와 같이 표현되는 기존 주장이다.

-대립가설(귀무가설을 부정하는 반대의 입장)

'작다', '크다', '같지않다'등의 입장

 

 

두 그룹의 평균을 비교하기 위해서는 비교할 대상이 등분산인지 확인이 필요하다.

분산이 같을 때와 다를 때 계산방법이 다르기 때문이다.

 

 

 

영등포구와 마포구의 공유자전거 이동거리 비교하는 예시입니다. 

귀무가설: 영등포구와 마포구의 공유자전거 이동거리의 평균은 같다.

 

var.test 등분산 검정

F=1.0311: 검정통계량

p-value=0.129 

등분산 검정 판정 결과는 p-value로 알 수 있다.

-> p-value 값 > 0.05 : 등분산, p-value 값 < 0.05 : 등분산이 아님

==> 등분산으로 가정하고 다음 단계의 작업으로 넘어간다.

영등포구 자전거 대여 거리와 마포구 자전거 대여 거리를 비교해보면 차이가 존재하는데

이 차이가 우연히 발생한 차이인지 또는 통계적으로 발생한 차이인지 비교가 필요하다.

 

 

two sample t-test

마포구와 영등포구의 데이터를 필터링해서 새로운 변수 data에 저장한다.

t.test(Distance ~ Gu, data=data, var.equal=TRUE)

 

 

t.test(): 두 집단간의 평균을 비교하는 검정

data=data: 우연히 발생한 차이인지 통계적으로 발생한 차이인지 비교 필요

대상이 되는 마포구, 영등포구를 고른 다음에 임시 변수에 놓고 t.test에 입력한 것이다.

 

첫 번째 인자인 Distance가 평균 비교 대상의 값이다.

tilde(~): 함수관계

Distance ~ Gu: Gu에 따른 Distance 의 평균

Gu에는 비교할 대상인 마포구와 영등포구만 들어가 있어야 한다.

var.equal=TRUE: 등분산 검정에서 등분산으로 판정했으므로 TRUE값을 준다.

 

p-value = 6.299e-05

자연과학적 표기방법으로 0.05보다 꽤 많이 작은 값의 수치로 표시 -> p-value가 0.05보다 작다는 것으로 이해하면 된다.

-> 귀무가설 기각. 두 구의 공유자전거 이동거리 평균은 같지 않다.

  

 

가설검정의 판정은 유의수준과 p-value 간의 비교

-유의수준 0.05: 통계적으로 의미가 있는 차이의 기준값으로 0.05 (5%)를 사용한다는 의미

유의수준은 고정된 기준값이 아닌 풀고자 하는 문제에 따라 스스로 정하는 값이다.

생명을 다르는 중요 문제는 유의수준이 0.01, 0.001도 가능하다.

-p-value: 귀무가설이 참이라는 가정 하에 현재 두 평균값 사이의 차이가 나타날 확률 (귀무가설이 옳다고 할 때 검정통계량에 대한 확률, 귀무가설이 참이라는 전제하에 검정통계량보다 큰 값이 나타날 확률이다.)

 

p-value < 유의수준: 너무 낮은 확률이므로 귀무가설을 기각하겠다는 판정을 내리게 된다.