본문 바로가기
데이터과학

데이터과학: 카이제곱 검정 원리 완벽 이해하기!

by write453 2024. 10. 19.

데이터 분석에서 범주형 데이터를 다루는 방법, 카이제곱 검정의 원리를 파헤쳐 봅시다. 📊

 


카이제곱 검정이 뭐길래? 🤔

카이제곱 검정(Chi-Squared Test)이라는 건, 쉽게 말해 범주형 데이터, 즉 '어떤 범주에 속하는지'를 나타내는 데이터를 가지고 분석할 때 쓰는 통계적 방법이에요. 예를 들어, 남녀 성별에 따른 영화 장르 선호도, 혹은 지역별 선호하는 음식 종류 같은 것들을 분석할 때 유용하게 사용될 수 있죠.

 

카이제곱 검정은 크게 두 가지 목적으로 사용되는데요, 첫 번째는 '적합도 검정'이고, 두 번째는 '독립성 검정'이에요.

 


적합도 검정: 기대와 현실의 차이를 확인!

적합도 검정은 어떤 범주형 변수의 관측된 빈도가, 우리가 예상했던 빈도와 얼마나 일치하는지 확인하는 검정 방법이에요.

 

음… 좀 더 쉬운 예시를 들어볼게요. 🍭

만약 여러분이 맛있는 젤리 봉지를 샀는데, 젤리 색깔별로 비율이 다르다고 적혀 있었어요. 예를 들어, 빨간색 젤리가 30%, 파란색 젤리가 20%, 노란색 젤리가 50%라고 적혀 있었죠. 그런데 막상 봉지를 뜯어보니 빨간색 젤리가 엄청 많고, 파란색 젤리는 거의 없고, 노란색 젤리는 적당히 있는 거예요. 이럴 때, 과연 젤리 봉지에 적힌 색깔별 비율과 실제 젤리의 비율이 일치하는지 확인하는 데 적합도 검정을 사용할 수 있답니다.

 

어때요? 젤리 봉지 예시가 이해하기 쉽죠? 😁

적합도 검정은 이렇게 관측된 데이터가 어떤 특정한 분포를 따르는지 확인하고 싶을 때 사용하는 아주 유용한 도구에요.

 


독립성 검정: 두 변수 사이에 관계가 있을까?

독립성 검정은 두 개의 범주형 변수 사이에 어떤 관계가 있는지, 혹은 서로 독립적인지 확인하는 데 사용하는 검정 방법이에요.

 

다시 젤리 예시로 돌아가 볼까요? 😜

이번엔 젤리의 색깔과 젤리의 모양(하트, 별, 동그라미)이 서로 관련이 있는지 알아보고 싶다고 해 봐요. 과연 빨간색 젤리는 하트 모양이 많고, 파란색 젤리는 별 모양이 많고, 노란색 젤리는 동그라미 모양이 많은 걸까요? 아니면 젤리의 색깔과 모양은 서로 아무런 관련이 없을까요? 독립성 검정을 통해 이 질문에 대한 답을 찾을 수 있답니다.

 

독립성 검정은 이처럼 두 개의 범주형 변수 사이에 연관성이 있는지 확인하고 싶을 때 사용하는 아주 유용한 도구랍니다.

 


카이제곱 통계량: 차이를 숫자로 나타내다! 🧮

카이제곱 검정에서는 카이제곱 통계량(Chi-Squared Statistic)이라는 값을 계산해서 두 범주형 변수 사이의 차이를 숫자로 나타내요.

 

카이제곱 통계량은 다음과 같은 공식으로 계산됩니다.

 

$$\chi^2 = \sum \frac{(O - E)^2}{E}$$

 

여기서,

 

  • O는 관측 빈도(Observed Frequency)로 실제로 관측된 값을 의미해요.
  • E는 기대 빈도(Expected Frequency)로, 귀무가설이 참이라고 가정했을 때 예상되는 값을 의미해요.

쉽게 말해, 카이제곱 통계량은 관측된 값과 예상되는 값의 차이가 얼마나 큰지를 나타내는 지표라고 생각하면 돼요. 차이가 클수록 카이제곱 통계량 값이 커지고, 이는 두 변수 사이에 연관성이 있을 가능성이 높다는 것을 의미하죠.

 


자유도: 범주의 수에 따라 달라지는 자유! 🤸‍♀️

카이제곱 검정에서 자유도(Degrees of Freedom)는 카이제곱 분포를 찾는 데 사용되는 중요한 값이에요.

 

자유도는 범주의 수에 따라 달라지는데,

 

  • 적합도 검정에서는 범주의 수에서 1을 뺀 값이 자유도가 됩니다.
  • 독립성 검정에서는 (행의 수 - 1) × (열의 수 - 1)이 자유도가 됩니다.

예를 들어, 젤리 색깔이 3가지(빨강, 파랑, 노랑)이고, 젤리 모양이 2가지(하트, 별)라면, 독립성 검정의 자유도는 (3-1) × (2-1) = 2가 되는 거예요.

 


카이제곱 검정의 전제조건: 꼼꼼하게 확인하기! 🔎

카이제곱 검정을 사용하려면 몇 가지 전제조건을 만족해야 해요.

 

  • 데이터는 범주형이어야 합니다.
  • 각 셀의 기대 빈도는 5 이상이어야 합니다.
  • 데이터는 독립적이어야 합니다.

만약 기대 빈도가 5 미만인 셀이 너무 많다면, 카이제곱 검정 대신 피셔의 정확 검정(Fisher's Exact Test)을 사용해야 할 수도 있어요.

 


카이제곱 검정, 어떻게 사용할까요?

카이제곱 검정을 사용하는 단계는 다음과 같아요.

 

  • 가설 설정: 귀무가설과 대립가설을 설정합니다.
  • 기대 빈도 계산: 각 셀의 기대 빈도를 계산합니다.
  • 카이제곱 통계량 계산: 위에서 설명한 공식을 사용하여 카이제곱 통계량을 계산합니다.
  • p-값 계산: 카이제곱 통계량과 자유도를 이용하여 p-값을 계산합니다.
  • 결론 도출: p-값을 유의 수준과 비교하여 귀무가설을 기각할지 채택할지 결정합니다.

예시를 통해 더 자세히 알아보기!

예시: 어떤 지역의 사람들이 선호하는 과일 종류를 조사했어요. 🍎 🍌 🍓

조사 결과는 다음과 같습니다.

 

과일 종류남성여성합계

사과 50 30 80
바나나 30 40 70
딸기 20 30 50
합계 100 100 200

 

이 데이터를 가지고 남성과 여성이 선호하는 과일 종류에 차이가 있는지 카이제곱 검정을 수행할 수 있습니다.

 

가설 설정:

 

  • 귀무가설: 남성과 여성이 선호하는 과일 종류에 차이가 없다.
  • 대립가설: 남성과 여성이 선호하는 과일 종류에 차이가 있다.

기대 빈도 계산:

 

예를 들어, 남성이 사과를 선호할 것이라고 예상되는 빈도는 다음과 같이 계산할 수 있습니다.

 

(남성의 총 인원) × (사과를 선호하는 총 인원) / (전체 인원) = 100 × 80 / 200 = 40

 

이와 같은 방법으로 나머지 셀의 기대 빈도를 계산할 수 있습니다.

 

카이제곱 통계량 계산:

 

계산된 기대 빈도와 관측 빈도를 이용하여 카이제곱 통계량을 계산합니다.

 

p-값 계산:

 


계산된 카이제곱 통계량과 자유도를 이용하여 p-값을 계산합니다.

 

결론 도출:

 

계산된 p-값이 유의 수준(예: 0.05)보다 작다면, 귀무가설을 기각하고 대립가설을 채택합니다. 즉, 남성과 여성이 선호하는 과일 종류에 차이가 있다는 결론을 내릴 수 있습니다.

 


카이제곱 검정의 장점과 단점

카이제곱 검정은 범주형 데이터 분석에 유용한 도구이지만, 장점과 단점을 모두 가지고 있어요.

 

장점:

 

  • 범주형 데이터 분석에 적합합니다.
  • 계산이 비교적 간단합니다.
  • 해석이 용이합니다.

단점:

 

  • 기대 빈도가 작을 경우 결과가 부정확할 수 있습니다.
  • 데이터가 독립적이어야 합니다.
  • 인과 관계를 파악하기 어려울 수 있습니다.

궁금한 점은 없으신가요? 🙋‍♀️

Q1. 카이제곱 검정은 언제 사용해야 하나요?

 

A1. 카이제곱 검정은 두 범주형 변수 사이의 관계를 분석하거나, 범주형 변수의 관측 빈도가 기대 빈도와 일치하는지 확인하고 싶을 때 사용하면 좋아요. 예를 들어, 남녀 성별에 따른 선호하는 운동 종류의 차이를 분석하거나, 주사위를 던졌을 때 각 면이 나오는 횟수가 균등한지 확인하고 싶을 때 유용하게 사용할 수 있답니다.

 

Q2. 기대 빈도가 5 미만인 경우 어떻게 해야 하나요?

 

A2. 기대 빈도가 5 미만인 셀이 많다면, 카이제곱 검정 대신 피셔의 정확 검정(Fisher's Exact Test)을 사용하는 것이 더 적절할 수 있어요. 피셔의 정확 검정은 카이제곱 검정보다 정확도가 높지만, 계산이 복잡하다는 단점이 있답니다.

 

Q3. 카이제곱 검정 결과를 어떻게 해석해야 하나요?

 

A3. 카이제곱 검정 결과는 p-값을 통해 해석할 수 있어요. p-값이 유의 수준(예: 0.05)보다 작다면, 귀무가설을 기각하고 대립가설을 채택합니다. 즉, 두 변수 사이에 유의미한 관계가 있다는 것을 의미하죠. 반대로, p-값이 유의 수준보다 크다면, 귀무가설을 채택하고 대립가설을 기각합니다. 즉, 두 변수 사이에 유의미한 관계가 없다는 것을 의미한답니다.

 

마무리

 

카이제곱 검정은 범주형 데이터 분석에 유용한 도구이지만, 적절한 상황에 사용해야 올바른 결과를 얻을 수 있어요. 이 글이 카이제곱 검정에 대한 이해를 높이는 데 도움이 되었기를 바랍니다.

 

키워드:카이제곱검정, 카이제곱, 범주형데이터, 통계분석, 데이터분석, 통계, 데이터과학, 적합도검정, 독립성검정, 기대빈도, 관측빈도, 자유도, p값, 유의수준, 분할표, SPSS, R, Python, 데이터사이언스, 데이터분석, 통계학, 통계분석방법, 통계자료분석, 통계분석전문, 통계자료해석, 데이터분석전문가, 데이터분석스터디, 데이터분석강의, 데이터분석교육, 데이터과학자, 데이터분석전문업체

 

 

 

관련 포스트 더 보기