통계학

[통계학] 확률표본(Random Sample), 통계량(Statistic)

앞줄학생 2020. 5. 3. 17:07

안녕하세요! 앞줄학생입니다.


확률표본에 대해서 다뤄보며 이와 연관된 여러 개념들을 정리해 볼 예정입니다.

본격적인 내용에 들어가기 앞서 평균과 분산에 대한 개념을 알고 있어야 하기에

헷갈리거나 모르시는 분들은 아래 게시물 가셔서 학습을 먼저 하고 오시면 됩니다 : )


[통계학] - [통계학] 평균과 분산(Mean & Variance) 그리고 표준편차


확률표본이란 영어로 하면 Random Sample입니다.

샘플을 맘대로 랜덤하게 뽑는 거죠.

하지만 조건이 있습니다. 바로, 각 원소들이 선택될 활률이 모두 동일하다는 겁니다.


원소가 뽑힐 때의 확률변수를 구분하는 방법이 있습니다.

바로 대문자를 사용했는지 소문자를 사용했는지를 통해서 말이죠.


한 모집단에서 원소를 뽑는데 실험 전에는 어떤 값이 뽑혔는지 알 수 없습니다.

실험을 진행해야 어떤 원소가 뽑혔는지 알 수 있죠.

이에 실험 전에는 대문자 X를 사용하고 실험 후에는 소문자 x를 사용합니다.


이렇게 뽑은 확률표본들로 함수를 만들게 되면 그것이 바로 통계량이 됩니다.

단, 실험 전 확률변수의 상태여야합니다.

그리고 이 확률변수들은 다른 모수와의 연산을 통한 함수도 통계량이라 할 수 있는데

만약 모수가 미지의 모수라면 통계량이라 할 수 없습니다. 미지수가 2개인 꼴이 되니깐요.


이에 확률변수인 확률표본을 뽑아 만든 통계량도 확률변수라고 할 수 있습니다.

따라서 이 표본들의 분포를 알아볼 필요가 있죠!

대표적인 통계량으로 표본평균(Sample mean)과 표본분산(Sample variance)이 있습니다.

여기서 잠깐 표본평균과 표본분산에 대해 짚고 넘어가 봅시다.

모집단에서 일정 수 n만큼의 샘플을 뽑은 것이 표본입니다. 

그렇다면 n이 충분히 크다면 모집단과 다르지 않게 되겠죠?

충분히 크다는 건 모집단 만큼의 크기를 가질 수 있는 것이니깐요.

이에 표본평균과 모평균을 근사할 수 있습니다.


우리는 여기서 모집단의 모평균과 모분산을 안다면 

표본평균과 표본분산을 알아낼 수 있음을 짐작할 수 있습니다.

유도과정은 나름 귀찮을 수 있으니 핵심만 정리한다면 다음과 같습니다.

이를 이용하여 n이 충분히 클 때 표본평균이 정규분포를 따른다고 할 수 있고, 이는 정규화를 할 수 있음을 보입니다.

다음과 같이 정리가 되죠.

참고로 모집단의 분포가 정규분포인 경우에는 

표본평균의 분포는 n값에 관계없이 정규분포를 따릅니다.


만약 모평균을 알지만 모분산을 모르는 경우는 어떻게 할까요? 이는 T분포에 관한 얘긴데요.

쉽게 생각해 모분산 자리에 표본분산을 넣어주면 되구요.

이를 정규화한다면 정규분포 N(0,1) 대신 t(n-1) 분포를 따른다고 알고 계시면 됩니다.


이해가 쉽게 가셨나요? 확률분포에서 정규화까지의 개념을 이렇게 정리하시면

편하게 외우실 수도 있습니다!


궁금하신 사항이나, 보충내용이 있다면 댓글로 남겨주세요!

그럼 고생하셨습니다 : )