본문 바로가기
데이터과학

데이터과학 필수! t분포 vs 정규분포 차이 확실히 알아보기

by write453 2024. 10. 18.

데이터 과학에서 자주 사용되는 t 분포와 정규 분포! 둘의 차이점이 궁금하신가요? 표본 크기, 모분산 유무에 따라 어떤 분포를 사용해야 할지 헷갈리셨다면, 이 글이 도움이 될 거예요. t 분포와 정규 분포의 개념, 차이점, 그리고 데이터 분석에서의 활용까지 쉽고 자세하게 알려드릴게요.

 


t 분포: 표본 크기가 작을 때 빛을 발하는 분포

t 분포는 표본 크기가 작고 모집단의 표준 편차를 모를 때 사용하는 확률 분포에요. 뭔가 좀 어려워 보이죠? 😅  쉽게 말해서, 전체 데이터를 다 조사할 수 없는 상황에서, 일부 데이터만 가지고 전체 데이터의 특징을 파악해야 할 때 유용한 도구라고 생각하면 돼요. 특히, 모집단의 분산(혹은 표준 편차)을 모를 때, 표본의 평균을 이용해 모집단의 평균을 추정하거나 가설 검정을 할 때 빛을 발하죠.

 


t 분포의 탄생 비화: 기네스 맥주와 윌리엄 고셋

흥미로운 사실 하나! t 분포는 유명 맥주 회사인 기네스에서 일하던 윌리엄 고셋이라는 통계학자가 개발했어요. 맥주 품질 관리를 위해 보리의 품질을 검사하는 과정에서, 전체 보리를 다 조사할 수 없으니 일부만 가지고 품질을 판단해야 하는 상황이었던 거죠. 그래서 고안해낸 것이 바로 t 분포였고, 당시 기네스에서는 연구 결과를 외부에 공개하는 것을 꺼려했기 때문에, 그는 '스튜던트'라는 필명으로 논문을 발표했다고 해요. 덕분에 t 분포는 '스튜던트 t 분포'라고도 불린답니다!

 


t 분포의 특징: 정규 분포와의 차이점

t 분포는 정규 분포와 비슷하면서도 다른 몇 가지 특징을 가지고 있어요.

 

대칭성: t 분포는 정규 분포처럼 평균을 중심으로 좌우 대칭인 모양을 하고 있어요. 마치 종 모양 같다고 할까요?

두꺼운 꼬리: t 분포는 정규 분포에 비해 꼬리가 좀 더 두꺼워요. 즉, 극단적인 값이 나타날 확률이 정규 분포보다 높다는 뜻이에요. 표본 크기가 작을수록 이런 특징이 더욱 뚜렷하게 나타나죠.

자유도: t 분포는 '자유도'라는 개념이 중요해요. 자유도는 표본 크기와 관련된 값으로, 자유도가 커질수록 t 분포는 정규 분포와 점점 더 유사해져요. 보통 표본 크기가 30개 이상이면 t 분포는 정규 분포와 거의 비슷해진다고 알려져 있죠.


t 분포의 활용: 모분산을 모를 때 빛을 발하는 이유

t 분포는 모집단의 분산(혹은 표준 편차)을 모를 때, 표본의 평균을 이용하여 모집단의 평균을 추정하거나 가설 검정을 할 때 사용해요. 특히, 표본 크기가 작을 때 유용하죠. 왜냐하면 표본 크기가 작을수록 표본 분산이 모집단 분산을 정확하게 추정하지 못할 가능성이 높기 때문이에요. t 분포는 이러한 표본 분산의 불확실성을 반영하여, 신뢰 구간을 좀 더 넓게 설정해 줍니다.

 


정규 분포: 데이터 과학의 기본

정규 분포는 데이터 과학에서 가장 널리 사용되는 확률 분포 중 하나에요. 흔히 '가우시안 분포'라고도 부르죠.  데이터가 평균을 중심으로 대칭적으로 분포하는 경우에 자주 나타나는 형태이고, 키, 몸무게, 시험 성적 등 다양한 현상을 설명하는 데 사용됩니다.

 


정규 분포의 특징: 벨커브의 매력

정규 분포는 아래와 같은 특징을 가지고 있습니다.

 

대칭성: t 분포와 마찬가지로 평균을 중심으로 좌우 대칭인 모양을 하고 있어요.

종 모양: 흔히 '벨커브(Bell Curve)'라고 불리는 종 모양을 하고 있어요.

평균, 중앙값, 최빈값이 일치: 정규 분포에서는 평균, 중앙값, 최빈값이 모두 같은 값을 가진답니다.

표준 편차: 정규 분포의 모양은 표준 편차에 의해 결정돼요. 표준 편차가 클수록 분포가 더 넓게 퍼지고, 표준 편차가 작을수록 분포가 더 좁게 몰려 있죠.


정규 분포의 활용: 다양한 분야에서 활용되는 만능 분포

정규 분포는 다양한 분야에서 활용되는데요, 예를 들어 다음과 같은 경우에 사용됩니다.

 

데이터 분석: 데이터의 분포를 파악하고, 이상치를 감지하는 데 사용됩니다.

통계적 추론: 모집단의 특성을 추론하고, 가설 검정을 수행하는 데 사용됩니다.

머신 러닝:  일부 머신 러닝 알고리즘은 데이터가 정규 분포를 따른다고 가정하기 때문에, 데이터 전처리 과정에서 정규 분포를 활용합니다.


t 분포와 정규 분포의 차이: 표본 크기와 모분산이 키포인트!

자, 이제 t 분포와 정규 분포의 차이를 좀 더 명확하게 정리해 볼까요?

 

사용 조건 표본 크기가 작고 (30개 미만), 모분산을 모를 때 표본 크기가 크거나 (30개 이상), 모분산을 알 때
꼬리의 두께 정규 분포보다 꼬리가 더 두꺼움 꼬리가 얇음
모분산 모분산을 모를 때 사용 모분산을 알 때 사용
자유도 자유도(표본 크기와 관련)에 따라 모양이 달라짐 자유도의 영향을 받지 않음

특징 t 분포 정규 분포

 


쉽게 이해하자면:

 

표본 크기가 작고 모분산을 모를 때는 t 분포를 사용하고,

표본 크기가 크거나 모분산을 알 때는 정규 분포를 사용하면 된답니다!


궁금한 점은 FAQ에서 확인하세요!

Q1. t 분포와 정규 분포, 언제 어떤 걸 써야 할지 헷갈려요!

 

A1. 표본 크기가 30개 미만이고 모분산을 모를 때는 t 분포를, 표본 크기가 30개 이상이거나 모분산을 알 때는 정규 분포를 사용하면 됩니다.

 

Q2. 자유도가 뭘까요?

 

A2. 자유도는 표본 크기와 관련된 개념으로, t 분포의 모양을 결정하는 중요한 요소입니다. 자유도가 커질수록 t 분포는 정규 분포와 유사해집니다.

 

Q3. t 분포는 어떤 경우에 더 유용한가요?

 

A3. t 분포는 모집단의 분산을 모르고 표본 크기가 작을 때, 모집단의 평균을 추정하거나 가설 검정을 수행하는 데 유용합니다.

 

마무리

오늘은 t 분포와 정규 분포의 차이점을 자세히 알아보았어요. 둘 다 데이터 과학에서 매우 중요한 확률 분포이고, 데이터 분석 상황에 따라 적절한 분포를 선택하는 것이 중요하다는 것을 기억해주세요!

 

어려운 내용이었지만, 이 글을 통해 t 분포와 정규 분포에 대한 이해가 좀 더 깊어졌기를 바랍니다. 앞으로 데이터 분석을 할 때, 이 글에서 배운 내용을 떠올리며 자신감 있게 분석에 도전해 보세요! 😊

 

데이터과학,통계학,t분포,정규분포,확률분포,데이터분석,가설검정,표본크기,모분산,자유도,스튜던트t분포,기네스,윌리엄고셋,데이터사이언스,머신러닝,통계모델링,통계분석,데이터마이닝,표본평균,신뢰구간,표준편차,벨커브,데이터과학자,데이터분석가,데이터활용,데이터기반의사결정,데이터리터러시