본문 바로가기
통계

크롤리 통계 - 4.1 분산 복습

by BIJoy 2021. 1. 19.

분산

 

분산(variance) : 샘플 평균에서 벗어난 정도

Bias : 평균이 정답에서 얼마나 벗어났는가

 

모집단 Y의 평균 - Y 각각의 값 --> 결과가 음수가 나올 수 있다. 

 

  • 결과가 음수가 나왔을 때의 대안

1. 절댓값 

 

왼쪽의 그림은 y=x^2 의 그래프이다.

이 그림은 미분이 가능하며

미분을 한다는건 기울기를 그릴 수 있다는 것 이고, 최솟값을 구하는 방법이다.

 

 

 

 

하지만 절댓값이 들어간 y=|x| 의 그래프를 보면 

미분이 불가능하다는 것을 볼 수 있다.

 

따라서 분산을 구하고자 할 때 확실한 대안은 될 수 없다.

 

2. 제곱합

값을 추정하는데 이론적 전개를 위해 사용

분산을 구하고자 할 때 확실한 대안이 될 수 있다. 

 

  • 분산 식이 어떻게 만들어졌을까??

σ^2 은 모집단의 분산을 뜻하며 S^2 은 sample의 분산을 뜻하는데 

여기서는 샘플사이즈를 10으로 뽑았다. 

그렇다면 저 식대로 하면 N 자리에 10이 오는게 맞는건데...

이렇게 sample의 분산을 계산하면 항상 bias가 생긴다

   그렇다면 분산에는 어떤 값을 넣어야 할까??

이때 나오는 개념이 자유도(degree of freedom)이다

 

자유도란?

쉽게 말하면 자유롭게 표현할 수 있는 값을 뜻한다. 

         

이렇게 5개의 칸이 있다고 했을 때 1부터 10까지의 수를 5칸에 넣는다고 하면 자유롭게 숫자를 넣을 수 있다. 

하지만 이때 평균을 20으로 한다고 하면 남은 4칸에는 수를 자유롭게 넣을 수 있지만 마지막 칸에는 평균을 20으로 만들 수 있도록 숫자를 넣어줘야 한다. 즉, 하나의 칸은 자유가 없다.

따라서 위의 예시에서의 자유도는 4이며 , 이는 평균이라는 모수 값이 표본의 갯수(n)에서 빠진 갯수이다 (n - 1)

 

그러므로

분산 식

다음과 같이 분산 식을 쓸 수 있다. 이렇게 하면 unbiased estimate를 계산하는 것으로, bias가 생기지 않는다.

 

'통계' 카테고리의 다른 글

베이즈 정리  (0) 2021.02.20
크롤리 통계 - 5. 하나의 표본  (0) 2021.01.21
크롤리 통계 - 4. 분산  (0) 2021.01.18
크롤리 통계 - 3. 중심경향  (0) 2021.01.12
크롤리 통계 - 2 (R, 데이터프레임)  (0) 2021.01.12