본문 바로가기

PlusVirus의 BlarBlar

기본 통계 개념

사진이 깨지네요 파일로 받아 보시면 안깨집니다.

 

기본통계개념.pdf

 

모수 (Parameter)

 

모집단의 특성을 나타내는 수치로서, 모집단의 평균, 분산 등을 말한다.

표본의 수치적 특성인, 표본 평균, 분산 등은 모수와 대비하여 '통계량(statistic)' 이라고 한다.

모수와 통계량 연구자 또는 조사자가 원하는 값을 사용하므로, 꼭 어떤 값이 모수(또는 통계량)라고 할 수는 없고, 특성을 나타내는 수치들 전체를 말한다.

 

추정 (Estimation)

 

추정은 표본에서 구한 특성치를 사용하여 모집단의 특성치를 구하는 것을 말한다. , 통계량을 통해 미지의 모수값을 추리하는 것을 추정이라 한다. 그리고 이 때, 추정하는 값을 추정량이라 한다.

일반적으로 추정량은 모수 위에 hat을 씌워 나타낸다. 예를 들어 , 를 모집단 평균이라고 하고 가 이 모집단의 표본평균이라고 하면, 이는 추정량이므로 로 쓰고, mu hat (뮤 햇) 이라고 읽는다.

추정은 특정한 하나의 추정량을 얻는 것으로 할 수 도 있지만, 어떤 구간 안에 들어온다 라는 식으로도 표현할 수 있다. 이 때, 전자를 점추정, 후자를 구간 추정 이라고 한다.

점추정(point estimation)

: 모수를 하나의 값으로 추정하는 것으로서, 표본의 평균이나 중위수가 많이 쓰이지만, 최빈값, 최소값 등도 사용할 수 있다.

) 한국인의 일일 평균 컴퓨터 사용 시간은 3시간이다.

추정량을 선택할 때, 좋은 추정량의 성질은 불편향성(unbiasedness), 효율성(efficiency), 일치성(consistency)이다. 3가지 성질이 좋은 것을 선택 사용한다. (이 성질들이 좋다는 것은 모수의 특성을 잘 대변한다는 것을 의미한다.) 3가지 특성들은 다음과 같다.

1) 불편향성 : 모든 가능한 표본에서 얻은 추정량의 기대값, , 추정량의 평균이 추정하려고하는 모수의 값과 같아야 한다.

2) 효율성 : 추정량의 분산은 작을수록 좋다.

3) 일치성 : 표본의 크기가 아주 커지면, 추정값이 참값과 거의 같아진다.

구간 추정

: 모수의 추정량을 한 개의 숫자로 나타내는 것이 간단하고 알기는 쉽지만, 맞는 경우보다 틀리는 경우가 더 많다. 따라서 모수가 포함되었을 것이라고 판단하는 구간을 정하여 제시하는 것이 구간 추정이다.

) 6학년 어린이들의 키의 모평균은 140cm ±2.8cm 이고, 95%의 정확도를 갖는다.

이 때, 모수가 포함되었을 것이라고 제시한 구간을 신뢰구간(confidence interval)이라고 하고, 신뢰구간에서 확신하는 정도를 신뢰수준(reliability level)이라고 한다.

신뢰 수준은 연구자가 결정하는 것이긴 하지만 아무렇게나 정하는 것은 아니고, 대부분 특정한 값들 중에 선택하여 사용한다.

보통은 95%(또는 99%, 가끔 90%)를 사용한다.

(신뢰 수준이 95%라는 뜻은 동일한 방법으로 100번의 연구를 반복하면 그 중 신뢰구간안에 모수가 포함되지 않는 경우가 5번이 될 것이라는 뜻이다.)

신뢰구간에 이용되는 z값 또는 t값을 신뢰계수(reliability coefficient)라 하는데, 신뢰수준에 따라 값이 정해진다.

 

표준화(standardization)

: 변수 값을 일반적인 정규분포형에서 평균=0, 분산=1 (표준편차도 1이 됨)로 만드는 변환.

일반적인 정규분포에 상수를 더하거나 빼면 평균도 동일하게 더하거나 빠지며, 분산에는 영향이 없다.

, 일반적인 정규분포에 상수를 곱하거나 나누면, 평균도 동일하게 곱하거나 나누어야 하고, 분산에 상수의 제곱을 곱하거나 나누어야 한다.

, 이 성질을 이용해서 표준화를 하면 다음과 같다.

 

표준화를 하는 이유는 서로 다른 통계 데이터들을 비교하기 용이하기 때문이다.

어떤 변수를 어떤 표본에 대해 통계를 구하였는가에 따라 평균과 분산 값은 제각각이기 때문에, 서로 비교하기가 불편한데, 표준화를 하면 평균은 0, 분산과 표준편차는 1 이 되므로, 비교하기가 용이하다.

 

검정통계량

검정을 위해 여러 번의 조사를 수행할 경우, 매 조사마다 서로 다른 변수나 서로 다른 표본에서 데이터를 수집하기 때문에 평균과 분산이 달라지고 기각값 또한 매번 달라진다.

이렇게 기각값과 유의확률을 매번 구해야 하는 번거로움을 피하기 위해서는 통계량을 표준화하여 사용할 필요가 있다.

이러한 표준화된 통계량을 '검정통계량'이라고 한다. (검정통계량 이라는 것은 특정 값을 의미하는 것이 아니라, 매번 다를 수 있다.)

가장 많이 사용하는 통계량인 평균에 대한 검정통계량은 표본의 평균을 표준화한 것이다.

이 때, 모평균의 검정통계량은 통계량인 표본평균을 표준오차로 나눈것으로서 다음과 같은 두 가지 형태로 구할 수 있다.

또는

식에서 알 수 있듯이, 모분산(σ)을 알면 z값을 계산하고, 모분산을 모르면 표본분산(s)을 이용하여 t값을 계산하여 사용한다.

실제 분석시에는 모분산을 아는 경우가 거의 없으므로 대부분 t값을 계산하게 된다.

 

1종오류와 2종오류

가설검정은 기본적으로 '귀무가설이 맞다 '는 가정에서 출발한다.

이 때, 그럼에도 불구하고 대립가설이 맞다고 말할 수 있는 기준, , 두 가설 중 하나를 결정하는 역할을 하는 것이 기각값이다.

그리고 기각값을 결정하는데 중요한 역할을 하는 것이 제1종 오류의 크기이다.

다음 그림과 같이 귀무가설과 대립가설이 평균을 중심으로 확률 분포를 그린다고 하자. 이 때, 표본 조사에서 각 표본의 값이 파랑색 지점에서와 같이 관찰되었다면, 이것은 반드시 대립가설이 맞다고 할 수 있는가? 귀무가설의 확률 분포상에서도 확률이 낮을 뿐, 관찰된 표본의 분포를 보일 수 없는 것은 아니다. 따라서 이 경우 대립가설이 맞다라고 한다면 오류가 발생하는 것이다. , 귀무가설이 맞다고 하는 것도 오류가 없다고 할 수 없다. 이를 각각 제1, 2종 오류라고 한다.

 

1종의 오류'귀무가설이 맞는데도 불구하고 틀렸다고 결론을 내리는 오류'이며, 유의수준(significance level)과 같은 말이다. 이 오류의 크기를 α라고 한다.

2종의 오류'대립가설이 맞는데도 귀무가설이 맞다고 결정을 내리는 오류'이며, 이 오류의 크기를 β라고 한다. 1-β 대립가설이 맞는 경우 이를 옳다고 결정할 확률이며, 이를 검정력(statistical power)이라고 한다.

우측검정에서 기각값을 우측으로 멀리 보낼수록 유의수준이 작아지고, 따라서 귀무가설의 채택역이 늘어난다.(귀무가설이 틀렸다는 결론을 내리기가 어려워진다.) 반대로 왼쪽으로 보낼수록 유의수준이 커지고, 귀무가설의 기각역이 커진다.(귀무가설이 틀렸다는 결론을 내리기가 쉬워진다.) 위의 그림에서 귀무가설과 대립가설 사이에 기각값이 있다면, 기각값이 대립가설의 평균에 가까울수록 귀무가설이 틀렸다는 결정이 내려지기가 어려울 것이다.

귀무가설과 대립가설의 평균이 서로 멀리 떨어져 있다면 제1종 및 제2종 오류는 거의 없거나 아주 작다.

만약 두 가설의 평균이 그다지 멀지 않다면 표본의 크기를 늘려 표준오차를 작게 하는 것으로서 이들의 거리가 멀어지는 효과를 볼 수 있다. (분포의 폭이 좁아지므로)

우측검정에서 제1종 오류를 줄이기 위해 기각값을 우측으로 보내면, 2종 오류가 커지고, 반대로 좌측으로 보내면 제1종 오류가 커진다. , 두 값을 잘 결정해야 하는데, 많은 경우 유의수준에 중점을 두어, 정도의 오류를 허용하는 것으로 한다. , 2종 오류는 대개 미리 결정하지 않고, 검정 후, 유의한 결론이 나지 않았을 때 검정력을 결정하는데 쓰인다. 이 때, 크기는 정도까지 허용하는 편이다. 이 허용 오차의 크기로부터 대립가설의 값 중 하나의 값을 지정하여 오류의 크기를 정한다.

 

가설

 

우리가 원하는 어떤 모집단의 특성값 즉, 모수를 얻는 과정을 '검정(Testing)' 이라고 한다.

검정을 하기 위해서는 우선 특정한 값을 모수의 값으로 가정하는 것이 필요하고, 이를 가설이라고 한다.

가설에는 두 가지가 있는데, '지금까지 알려진 것과 같은 가설'귀무가설(null hypothesis, 또는 영가설: H0)이라 하고, 이에 대비해서 '새롭게 주장하고자 하는 가설'대립가설(alternative hypothesis, 또는 연구가설 research hypothesis: H1, 또는 Ha)이라 한다.

예를 들어 10년전에 비해서는 요즘 초등학생들의 키가 커졌을 것이라고 가정하고 조사를 진행한다고 하자. 이 때, 10년 전에 발표한 조사결과에서 초등학교 어린이들의 키의 평균이 140cm라고 하였다면, 귀무가설은 다음과 같다.

 

한편, 대립가설은 이 보다 클 것으로 가정하고 있다. 하지만, 대부분의 경우 크긴 크지만 얼마나 클지 알 수 없으므로 다음과 같이 정한다.

 

이처럼 대립가설의 값이 귀무가설 보다 우측에 있다고 생각되는 것을 우측검정이라고 한다.

동일한 형태로, 인 경우는 같지는 않지만 클 지, 작을 지 모르는 경우로 양측검정이라 한다. 인 경우는 좌측검정이다.

(좌측, 우측, 양측 검정의 경우, 확률 분포를 그렸을 때, 평균 위치가 좌측에 올지, 우측에 올지, 양측에 올 수 있을 지를 생각하면 된다.)

귀무가설에서 말하는 모평균의 값을 일반적으로 나타낼 때는 귀무가설의 첨자 0을 붙여 으로 표시하며, 여기서 이다.

(대립 가설의 경우에는 추정량으로 표시하므로, mu bar 가 된다.)

 

t분포

 

일반적으로 데이터가 정규 분포를 따르더라도, 특정 표본값이 나타날 확률이 얼마나 되는지를 계산하기는 쉽지 않다. 이는 데이터의 평균과 분산 등이 데이터 집단마다 다르기 때문에 정규분포 그래프의 모양이 데이터 마다 다르기 때문이다. 이를 해결하고자, 다음과 같이 정규분포를 표준화 하여 표준 정규 분포로 사용한다.

 

표준 정규분포에서는 평균이 0, 분산이 1로서 모두 동일하게 나타나므로, 특정 표본값을 동일한 정규화 공식으로 계산한 z 값을 알면, 해당 값이 어떠한 확률 영역에 있는지를 쉽게 계산할 수 있다.

그러나, 이 때 실제로는 대부분의 경우 모집단의 분산을 알 수 없기 때문에 모집단의 분산값을 사용하는 z값을 계산할 수는 없다. 따라서 모집단의 분산 σ2의 가장 좋은 추정량인 표본분산 S2을 이용하게 된다. 이렇게 하면 정확하게 정규분포를 따르지 않게 된다. 이렇게 표본 분산을 사용하여 정규화한 값을 t 값이라고 하고, 이 값의 분포를 t-분포 라고 한다.

 

모양은 표본의 크기에 따라 다르며, 당연한 이야기지만 표본의 크기가 클수록 정규분포에 가까워진다.

따라서 t분포를 지칭할 때는 표본의 크기를 함께 지정해야하며, 자유도를 통해 이를 지정한다.

표본의 크기가 n인 경우 자유도는 n-1이고, '변량 t는 자유도가 n-1t분포를 따른다'고 한다.

 

단일표본 t-test

검정 통계량 중 t값은 모분산σ값을 모를 때, 표본 분산을 이용하여 얻는 통계량이다. t값을 이용하여 검정을 수행하는 것을 t검정이라고 한다.

t검정 중, 단일표본t-검정은 표본이 하나일 때, 표본 평균과 모 평균의 차이를 확인하고자 할 때 사용한다.

검정 과정은 다음과 같다.

1. 검정통계량 계산

앞서 언급했듯이 t검정에서의 검정통계량은 t값이다. t값 계산에 필요한 모평균(μ0), 표본평균(x bar), 표본분산(s), 표본의 수(n)와 같은 값들은 미리 구해야 된다. t값은 다음과 같다.

(1)

2. 유의확률 계산

엑셀에서는 TDIST 함수를 사용하여 구할 수 있다. 'TDIST(t값의 절대값, 자유도, 검정방향)'의 형식으로 사용한다. 자유도는 '표본수-1 (, n-1)'이고, 검정방향은 단측검정일 때는 1, 양측검정일 때는 2이다.

양측검정의 유의확률이 p일 때 단측검정의 유의확률은 통계량이 대립가설 방향과 같으면 p/2, 대립가설 방향과 다르면 1-p/2이다. (좌측검정이냐, 우측검정이냐의 여부로 달라지지 않는다.)

산출된 유의확률이 유의 수준 (일반적으로 p<0.05)보다 작으면 표본 평균이 모 평균과 차이가 있다는 뜻이고, 크면 차이가 없다는 뜻이다.

참고로 유의확률 p값을 표시할 때는 다음과 같이 한다.

- 정수자리 0은 적지 않는다. (.002, .03 등으로 표시)

- 출력된 값이 .001이하이면 '<.001'로 적는다.

- 출력된 값이 1.000이면 '>.999'로 적는다.

3. 기각값 계산

2의 유의확률 만으로 차이의 유의성을 판단할 수 있겠지만, 기각값을 추가로 계산하여 확인할 수 있다. 기각값은 t분포에서 유의수준만큼의 확률이 나오게 하는 값이므로, 엑셀에서 t분포의 역함수인 TINV를 이용한다. (2010 에서는 T.INV)

'TINV(양측확률값(원하는 유의수준), 자유도)'의 형식으로 사용한다. 결과값을 검정통계량 t와 비교하여 기각 및 채택을 하게 된다.

 

대응표본 t-test

변수(표본)X, Y 로 두 개지만, 이 둘 사이에는 어떤 관계가 성립하기 때문에, 이 둘의 차이가 중요한 경우에 대해서, 차이를 확인하고자 하는 경우에 사용한다.

, 이 둘의 차이를 나타내는 변수를 D라 할 때, D에 대해 단일표본 가설을 검정하는 것과 동일하다.

예를 들어, 어떤 다이어트 프로그램이 있다고 하자. 이 프로그램을 사용하기 전의 몸무게와 사용한 후의 몸무게에 차이가 있는가를 확인하는 경우에 해당한다. 또는 어떤 학습법이 있는데, 이 학습법을 사용하기 전과 후의 성적 비교 등의 경우에 활용할 수 있다.

대응표본 t-검정의 가정

대응표본 t-검정을 사용하려면 다음을 만족해야 한다.

1. 두 표본이 같은 분석단위에서 측정되어야 한다.

예를 들어 위의 다이어트 프로그램을 가정하면, 다이어트 프로그램에 참여한 사람이 100명이라고 하자. 각 사람에게 번호를 붙이면 1- 100번까지 모두 다이어트 ''''로 나눌 수 있다. , 1-'', 1-'', 2-'', 2-'' 와 같은 식으로 같은 두 표본이 같은 경우에 대해 측정되어야 한다.

2. 두 표본의 관측값은 비교될 수 있어야 한다.

앞의 다이어트 프로그램을 가정하면, 다이어트 전의 값은 A, B, C, D, 의 등급으로 나누고, 다이어트 후의 값은 몸무게로 측정하면 안된다. 둘다 A, B, C, D, 등급으로 나누거나, 또는 몸무게로 측정하거나 해서 다이어트 전후를 객관적으로 비교할 수 있어야 한다.

3. 두 표본의 관측값은 적어도 구간식 변수이어야 한다.

, '2'에서 설명한 것과 같이 비교될 수 있어야 하는 것으로 끝나는 것이 아니라, 얼마나 차이가 나는 가 하는 것을 객관적으로 측정할 수 있어야 한다. 2의 예에서 편의상 A, B, C, D, 로 나눈 등급을 언급했지만, 이러한 것을 '순서식 변수'라고 하는데, 이러한 변수는 크고 작음을 구분할 수 있지만, 얼마나 크고 얼마나 작은지를 객관적으로 얘기하기 어렵다.(등급이 아주 많다면야 가능하겠지만) 몸무게를 직접 측정한 값은 얼마나 무거운지 가벼운지를 측정할 수 있으므로 구간식 변수에 해당한다.

4. 두 변수의 차이가 정규분포를 따른다는 가정을 만족하여야 한다. 정규분포성을 확신할 수 없으면 표본의 크기가 충분해야 한다.

엑셀에서 사용하기

'데이터->데이터분석->t-검정:쌍체비교' 를 이용한다. 순서는 다음과 같다.

1. 데이터를 입력한다. (다이어트 프로그램의 전과 후를 의미한다.)

 

2. '데이터->데이터분석->t-검정:쌍체비교' 를 선택하고, 변수1(), 변수2()의 구간과 유의수준을 정해준다. 여기서는 1 kg의 감량이 있으면 효과가 있는 것으로 보기로 한다. (가설 평균차=1)

 

3. 확인을 누르면, 다음과 같이 데이터가 생성된다.

 

결과에서 p값이 유의수준인 0.05 보다 크므로 이므로 통계적으로 유의한 차이가 없다. , 이 다이어트 프로그램은 효과가 없다고 판단할 수 있다.

 

독립표본 t-test

서로 독립인 두 집단에 측정된 데이터를 비교할 때 사용한다.

) 남녀 두 집단의 평균키나 몸무게 비교. '두 집단의 평균 키(몸무게)가 서로 다른가?(양측검정)', '여자의 평균키(몸무게)가 남자의 평균키(몸무게)보다 큰가(작은가)?(단측검정)' 등이 독립표본 t-검정에 해당한다.

가정

- 측정 변수가 최소한 구간식변수이어야 한다. 대응표본 t-검정에서와 마찬가지로 크기의 비교를 할 수 있어야 하기 때문이다.

- 두 집단이 서로 독립이어야 한다. 만약 어떠한 요인을 두 집단이 공유하는 대응표본이라면, 대응표본 t-검정을 수행해야 한다.

- 각 집단에서 측정한 변수의 분포가 정규분포를 따르거나 거의 정규분포에 가깝다는 가정을 할 수 있어야 한다.

엑셀로 검정하기

- 분산의 동질성을 검정한다 : 엑셀의 '데이터->데이터분석->F-검정:분산에 대한 두 집단'을 선택하여 두 그룹의 분산 동질성을 검정한다. 검정은 유의확률로 하며, 이 때 귀무가설은 '두 집단의 분산은 동일하다.' 가 된다. , 유의 수준보다 유의확률이 작지 않으면 분산이 동일한 것으로 가정한다.

 

분산에 대한 동질성 확인

- 분산이 동일하다고 판단되면 't-검정:등분산 가정 두집단', 다르다고 판단되면 't-검정:이분산 가정 두집단'을 선택한다.

 

가설 평균차는 귀무가설에서 두 집단의 평균의 차이를 입력한다. 예를 들어 ', 녀의 평균키가 같다' 라는 귀무가설에서는 평균이 같다는 것을 검정하므로, 가설 평균차는 0이 된다.

- 출력물에서 양측검정이 아닌 단측 검정을 하고자 할 때는, 가설의 방향을 반드시 확인해야 한다. 엑셀에서 기본적으로 출력하는 표에서는 좌측검정의 유의확률이 나온다. , 우측검정을 하고자 할 때는 (1-p단측)을 하여 계산한다.

 

카이제곱분석

교차 분석 이라고도 하면, 교차표로 정리된 두 범주형 변수의 관계를 확률적으로 분석하고 검정하는 것으로, 분석에 사용되는 검정통계량은 카이제곱분포를 따른다.

두 변수의 독립성

두 변수가 서로 독립이라 하는 것은 연속형 변수의 경우처럼 서로 아무런 상관이 없다는 뜻이다. 교차분석은 두 변수가 서로 독립이 아니라고 할 수 있는가를 알아보는 것이다.

관찰빈도와 기대빈도

- 관찰빈도 : 실제 관찰한 빈도 수

- 기대빈도 : 각 변수가 서로 독립이라고 가정할 때, 확률적으로 계산되는 이론적인 빈도 수

예를 들어, 주사위와 동전을 각각 던지는 경우를 생각해 보자.

주사위 숫자 2와 동전 앞면이 동시에 나올 확률은 서로 독립일 경우에는 각각의 확률의 곱이므로, 1/61/2의 곱인 1/12이다.

따라서 주사위와 동전을 각각 120번 던진다고 하면 이와 같이 나올 기대빈도는 10번이 된다.

관찰빈도는 실제로 나온 횟수가 된다.

자유도

카이 제곱 분석에서 자유도(degree of freedom ; df)는 값을 자유스럽게 변화시킬 수 있는 셀의 수를 말한다. 예를 들어 한 가족에서 남자의 수를 X, 여자의 수를 Y라 하면, 가족의 수는 일정하므로, 자유롭게 바꿀 수 있는 값은 X 또는 Y 둘 중 한가지이다. 따라서 자유도는 1이다. 이와 같은 원리로 r개의 행과 c개의 열을 가진 rc행렬에서의 자유도는 (r-1)*(c-1)이다.

피어슨의 카이제곱 통계량

검정에서는, 두 변수 AB가 서로 독립이라는 가설이 맞다는 가정 하에 (서로 독립이라는 가설이 귀무 가설이 됨.) 기대빈도와 관찰빈도 간의 차이를 비교한다.

만약 두 변수가 서로 독립이라면 관찰빈도와 기대빈도의 값은 서로 비슷하겠지만, 독립이 아니라면 관찰빈도는 기대빈도와 차이가 날 것이다.

빈도의 차이는 검정통계량으로 측정한다.

각 셀의 관찰빈도를 Qij, 기대빈도를 Eij라 할 때, 두 변수의 관계를 알아보는 다음의 검정통계량을 피어슨의 카이 제곱 통계량이라고 한다.

수집된 자료가 충분히 크고 두 변수가 서로 독립이라는 가정이 맞을 경우 검정통계량은 (점근적으로) 자유도가 (r-1)(c-1)인 카이제곱 분포에 근접한다.

검정통계량이 충분히 크다는 기준은 다른 검정에서와 마찬가지로 유의확률이다.

자유도가 (r-1)(c-1)인 카이제곱분포에서 검정통계량이 나올 확률이다.

유의확률이 유의수준보다 작으면 두 변수는 유의한 관계가 있다고 해석한다.

가정

- 독립변수와 종속변수가 모두 범주형 데이터이다.

- 수집된 데이터가 충분히 크다. 크다는 판단은 기대빈도로 내린다.

교차표에 있는 전체 셀의 개수 중 25% 이상에서 기대빈도가 5미만의 값이 나오면 데이터가 충분히 크지 않은 것이다.

엑셀은 교차분석에 대한 기능이 없다.

수식을 이용하여 직접 구해야 한다. 기대빈도와 관찰빈도 표를 만들고, X2을 수식으로 직접 구한다.

X2통계량은 자유도가 (r-1)(c-1)인 카이제곱 분포를 따르므로 유의확률을 'CHIDIST(검정통계량, 자유도)' 함수로 구할 수 있다.

 

카이 제곱 분포

k개의 독립적이고 표준정규분포를 따르는 확률변수라고 할 때, 다음의 식을 만족하는 확률 변수 Q의 분포를 자유도가 k인 카이제곱 분포라고 정의한다. (위키피디아 참조)

 

F-분포

두 확률변수 V1,V2가 각각 자유도가 k1,k2이고 서로 독립인 카이제곱 분포를 따른다고 할 때, 다음과 같이 정의되는 확률변수 F는 자유도가 (k1,k2)F-분포를 따른다고 한다.

 

일원배치 분산분석 (oneway Analysis Of Variance : ANOVA)

 

여러 독립표본 평균을 비교할 때 사용한다.

예를 들면, 학력이 중졸, 고졸, 대졸인 세 집단의 행복지수의 평균에 차이가 있는지를 확인하는 경우, 또는 일본인, 한국인, 중국인의 삶의 만족도 평균에 차이가 있는 지 등을 확인할 때 사용할 수 있다.

가설

분산분석에서 귀무가설은 다음과 같다.

H0 : 모든 집단의 평균은 다 같다.

따라서, 대립가설은 다음과 같이 된다.

H1 : 집단의 평균이 다 같지는 않다

여기서 주의할 점은 검정결과가 유의하여 귀무가설을 기각 한다고 하더라도 '모든 집단의 평균이 다 다르다.' 라는 의미는 아니라는 것이다.

귀무가설이 기각된다면, '집단 중 적어도 어느 하나의 평균이 다르다.' 는 의미가 된다.

분산분석표 (ANOVA table)

분산분석표는 분산분석을 할 때 가설검정을 위해 변동(Variation)을 분할하여 정리한 것이다.

k개의 집단을 비교하는 것으로, 각 집단에는 동일한 크기의 표본 n이 있는 경우의 분산분석표는 다음과 같다.

요인

Source

자유도

df

제곱합

SS

평균제곱합

mean SS

검정통계량

F

유의확률

p-value

집단간

k-1

SSB

MSB=SSB/(k-1)

F=MSB/MSW

 

집단내

k(n-1)

SSW

MSW=SSW/(k(n-1))

 

 

총합

kn-1

SST

 

 

 

표가 엄청 복잡해 보이지만, 적혀있는 항목이 많아서 그런것이지 각 항목의 내용이 복잡한 것은 아니다. 예를 들어, 중졸, 고졸, 대졸의 행복지수를 비교한다고 하자. 집단은 3개이므로, k=3이다. , 각 집단에서 표본이 10명이라고 한다면, n=10이다. 이로서 위 표의 첫번째 열인 '자유도' 항목을 모두 구할 수 있다.

제곱합은 각 표본의 값을 이용하여 구하는데, SSB, SSW, SST는 각각 다음과 같다.

 

여기서, 는 각 케이스의 관찰값, 는 전체 평균, i번째 집단의 평균이다.

SSB, SSW, SST를 모두 구했다면, 평균제곱합 MSBMSW, 그리고 검정통계량 F는 표에서 주어진 식으로 구할 수 있다.

만약, 귀무가설이 옳다면 (, 집단들의 평균이 모두 같다면) 표에서 SSB가 이론적으로 0이되어야 한다. (표본에서는 0에 아주 가까운 값이 된다.) 그러나 집단간 평균이 같지 않을 때, SSB의 값이 0보다 커진다. 따라서 F의 값이 0보다 커진다. , F가 크면 귀무가설을 기각하고, 작으면 채택하는 것이다.

F가 크다 작다는 것을 결정하는 것은 자유도가 (k-1)k(n-1)F분포를 따르므로, 이 분포표에서 유의확률 p를 구한 뒤, 유의 확률이 유의 수준보다 작으면 크다고 결정한다.

각 집단의 표본 크기가 동일하지 않은 경우, 인 경우는 집단간 자유도는 'k-1'이고, 집단내 자유도는 , 총합자유도는 이다.

가정

- 독립성 : 집단들은 서로 독립이고, 집단내의 케이스들은 서로 독립이다.

- 정규성 : 각 집단에서 종속변수는 정규분포를 따른다. 대부분의 연속형 변수들은 정규분포를 따르지 않는다고 생각할 만한 특별한 이유가 없고, 각 집단의 크기가 30을 넘으면 가능한 것으로 본다.

- 등분산성 : 종속변수의 분산은 모든 집단에서 서로 같다. - 분산이 크게 차이가 난다면 사용할 수 없다.

엑셀을 이용한 분산분석

- 데이터를 정렬한다. 각 집단은 열 또는 행으로 구분되어 있어야 되고, 집단별 케이스의 수는 달라도 된다.

- '데이터->데이터분석->분산분석:일원 배치법'을 선택한다. -> 분산분석표를 만들어 준다.

위와 같은 데이터로 행복지수를 측정했을 때, 우측과 같이 분산분석표를 만들어 준다.

위의 예에서는 p-value 3.26e-22 으로 유의확률 0.05는 물론 0.001로 지정하더라도 더 작다. 따라서 귀무가설은 기각되며, 적어도 한 집단의 평균은 차이가 있다라고 할 수 있다.

 

p-value

 

유의 확률(p value)은 귀무가설이 맞을 경우, 표본에서 얻은 표본평균보다 더 대립가설 쪽의 값이 나올 확률이 얼마나 되는지를 나타낸 값이다. 1종 오류인 '유의 수준'과는 다르다.

예를 들어 우측 검정일 경우를 보자.

 

위의 그림에서의 점들과 같이 표본이 관찰되었다고 하자. 여기서 표본 평균이 그림의 화살표 지점이라고 하면, 우측 검정이므로 귀무가설의 우측 어딘가에 대립가설의 평균이 있다. 이 때, 귀무가설이 맞다고 가정한다면 표본평균의 우측영역에서 표본이 검출될 확률이 얼마나 되는가 하는것이다.

따라서 표본평균이 귀무가설 값에서 멀수록 유의확률은 작아지며, 유의확률이 작아지면 대립가설을 채택하게 될 확률이 높다.

유의확률은 귀무가설의 정규분포에서 검정통계량 값을 기준으로 좌측검정의 경우는 좌측, 우측검정의 경우는 우측, 양측검정의 경우는 양측이다. 때문에, 양측검정은 동일한 검정통계량에 대해 유의확률이 두 배가 되는데, 이는 대립가설의 방향을 모르고, 따라서 양쪽 방향을 모두 고려하기 때문이다.

p는 확률이므로, 0~1의 값을 갖는다. 보통은 p<.05 구간을 설정하며, p<.05일 때는 '*', p<.01일 때는 '**', p<.001일 때는 '***'로 나타내기도 한다.

 

기각값

 

통계적 조사를 위해서는, 자료에서 얻은 통계량(또는 검정통계량)을 바탕으로 귀무가설이나 대립가설 중 하나가 맞다는 결정을 내려야 한다.

이때, 결정의 기준이 되는 값이 바로 기각값(critical value)이다. , 통계량이 기각값보다 큰지, 작은지 등을 이용하여 귀무가설이나 대립가설 중 하나가 맞다고 결정한다. 기각값은 검정 방법(F검정이냐 t검정이냐 등)과 조사 내용에 따라(유의 확률이 얼마나 작아야 하느냐 등) 다르게 정할 수 있다.

채택역기각역귀무가설채택하거나 기각하게 되는 검정통계량이 위치한 곳을 말한다.

좌측검정(대립가설의 확률 분포 평균지점이 귀무가설의 좌측에 있는 경우)에서는 기각값보다 큰 값의 영역은 채택역(귀무가설이 맞으므로), 작은 값의 영역은 기각역(귀무가설이 기각되므로)이다. 이는 통계량이 기각값보다 큰, 즉 채택역에 있을 때 귀무가설이 채택됨을 의미한다.

우측검정에서는 좌측검정에서와 반대가 되며, 양측검정은 기각값이 양쪽에 있으므로, 기각값의 사이가 채택역, 바깥이 기각역이 된다