Wednesday, November 19, 2008
3:51 PM
옛날에 교양 과목으로 통계를 듣기는 했는데, 그때는 실제로 보면서 살게 될 것을 예측했다기 보다는 호기심에, 쓸데없는 과목으로 학점을 채우느니 살짝 힘들더라도 뭔가 유의미한 것을 들어보자 하는 취지에서 신청한 것 뿐이었는데, 요즘 들어 실험을 하다 보니 매일 매일 분석하는 자료가 바로 chi square 이다. 복습 차원에서 다시 들춰봤는데 역시, 이것으로는 감을 다시 찾기에는 부족한 감이 있다. 연습문제를 풀어보는 것이 가장 맘에 드는 결론을 낼 것이라고 생각한다.
- 두 변수가 관련성이 있는가 없는가.
- 두 변수간의 관련성이 있다고 할때 얼마나 큰가
- 관련성이 있고 강도가 크다고 할때, 관련의 뱡향은 어떤가이다.
- 연구가설 : 각 셀의 모든 확률 중에서 적어도 하나는 다른 셀의 확률과 다르다, 두 분류는 서로 독립적이지 않다.
- 영가설(귀무가설) : 모든 셀의 확률은 같다. 즉 P1 = P2 = P3 = . . . = P{K-1} = P{k}, 두 분류는 서로 독립적이다.
- 측정의 각 대상들이 상호 배타적이고 같은 범주는 포괄적임
- 응답 범주들이 응답 가능한 상황을 모두 포함하고 있음
- 응답 범주들이 논리적 연관성을 가짐.
K Pearson 에 의해서 개발되었고, 독립성 검증 혹은 동질성 검증이라고 한다. 주로 교차분석에서 두 변인(명목척도)간의 관련성을 살펴보기 위하여 chi-square를 사용한다.
[ 두 변수간의 관련성을 측정하는 목적 ]
(관련의 방향은 다른 통계치로부터 찾아볼 수 밖에 없다)
chi-square는 교차표에서의 관찰빈도와(O)와 기대빈도(E)의 차이를 가지고 구하며 공식은 다음과 같다.

O = 실제로 셀에서 관찰되는 빈도
E = 이론적으로 기대되는 빈도이고 다음과 같이 나타낸다.

이때 자유도 df 란 독립적으로 결정된 수 있는 범주의 수에 해당하며 다음과 같이 나타낸다.
![]()
C = column 범주의 수
R = row 의 범주의 수
자유도가 적을 때는 우경편호의 모양을 나타내지만( 오른쪽 납작), 자유도가 커질수록 정규분포에 가까워진다.

이러한 계산에서 얻어진 chi-square와 df 값을 가지고 유의수준 P<0.05에서 통계적으로 유의미한 결과를 갖는지 알아보기 위해 chi-square table 과 비교를 한다.

카이스퀘어 검증에서의 연구가설과 영가설
카이스퀘어 검증의 한계
먼저 카이스퀘어 검증은 두 변수간의 관련성을 측정하는 과정에서 관련성의 존재여부와 강도는 알 수 있으나 관련의 방향은 측정할 수 없다는 한계가 있다.
그리고 무엇보다 큰 문제점으로 대두되는 것은 사례수가 적은 경우이다. 카이스퀘어는 모든 셀의 기대빈도가 최소한 5 이상이 되어야 카이스퀘어 의미를 가진다. 이 통계량은 기본적으로 교차표를 만들어서 관측값과 기대값의 차이를 통해 계산해내는 것이기 때문에 표의 제작 과정에서 칸으로 구획화 하게 되는데, 사례수가 적은 경우 사례수가 줄어들 뿐더러 빈 칸이 생기게 되기도 한다. 이러한 경우 관측값과 기대값의 차이를 계산한다는 것에 의미가 없어지고 문제점이 많이 발생하게 된다. 이러한 경우 해결방안에는 두가지가 있는데 "율의 공식" 의 경우 2*2의 경우에만 적용될 수 있으며 x와 y 변수가 두개의 카테고리만을 가질때 빈칸이 생기면 각 칸에 0.5를 부여해서 카이스퀘어를 계산할 수 있다. 이것을 corrected chi square 라고 부른다. 또 하나는 "카테고리의 간소화"를 통해서 카이스퀘어를 계산하는 것이다.
사례수가 너무 많은 경우에도 문제가 발생하는데, 사례수가 커짐에 따라 카이스퀘어 값이 커지면 예측값을 절대적인 크기가 커지게 되어서 100명과 1000명이 절대적인 수치는 다르지만 백분율이 비슷하게 된다.
[new concept]
|
영가설 (귀무가설) |
통계적 가설검정에 쓰이는 수리통계학 용어로 로널드 피셔(Ronald A. Fisher)가 명명하였다. 검정할 때 비교되는 두 개의 표본집단의 결과차가 확실한 조건차가 있다고 생각되는 경우, 또는 동일 모집단에 귀속하고 있지 않다고 생각되는 경우 그 추측과는 반대의 가설을 설정하는 것이다. |
|
가설검정의 절차 |
|
|
유의수준 |
검정의 유의수준은 H0이 사실이라는 조건에서 검정통계량이 기각역에 있을 확률이다. 유의수준은 기호 alpha 로서 표현된다. |
|
기각치 (critical value) |
기각영역(critical region)과 채택영역(acceptance region)을 분리시켜 주는 값 |
|
결정규칙 |
귀무가설 H0 을 기각하는 검정통계량 값의 집합과 채택하는 값의 집합을 정한다. |
|
검정통계량 |
귀무가설의 기각여부를 이용하는데 사용될 확률변수 |
|
검정력 |
H0가 거짓일 때 H0을 정확히 기각할 확률, 검정력은 (1-beta)이며, H0 을 거짓이라고 할때 , 검정 통계량이 기각영역에 속할 확률이다. 검정력은 조사되는 모수의 실제값에 의존한다. |
|
P 값 |
실제 얻은 값보다 더 극단적인 표본 추정치를 얻을 확률이다. 작은 p 값들은 귀무가설에 반대되는 증거를 제공한다. 미리 설정된 유의수준 alpha 를 사용할때는 p 값이 alpha 보다 작으면 항상 귀무가설을 기각한다. |
|
명목척도
|
경험적 연구에서의 변수를 네가지로 분류할 수 있는데 |
[ reference ]
http://research.joongang.com/survey/board.cgi?db=surveyFAQ&dbf=47




