분산
분산(variance) : 샘플 평균에서 벗어난 정도
Bias : 평균이 정답에서 얼마나 벗어났는가
모집단 Y의 평균 - Y 각각의 값 --> 결과가 음수가 나올 수 있다.
- 결과가 음수가 나왔을 때의 대안
1. 절댓값
왼쪽의 그림은 y=x^2 의 그래프이다.
이 그림은 미분이 가능하며
미분을 한다는건 기울기를 그릴 수 있다는 것 이고, 최솟값을 구하는 방법이다.
하지만 절댓값이 들어간 y=|x| 의 그래프를 보면
미분이 불가능하다는 것을 볼 수 있다.
따라서 분산을 구하고자 할 때 확실한 대안은 될 수 없다.
2. 제곱합
값을 추정하는데 이론적 전개를 위해 사용
분산을 구하고자 할 때 확실한 대안이 될 수 있다.
- 분산 식이 어떻게 만들어졌을까??
σ^2 은 모집단의 분산을 뜻하며 S^2 은 sample의 분산을 뜻하는데
여기서는 샘플사이즈를 10으로 뽑았다.
그렇다면 저 식대로 하면 N 자리에 10이 오는게 맞는건데...
이렇게 sample의 분산을 계산하면 항상 bias가 생긴다
그렇다면 분산에는 어떤 값을 넣어야 할까??
이때 나오는 개념이 자유도(degree of freedom)이다
자유도란?
쉽게 말하면 자유롭게 표현할 수 있는 값을 뜻한다.
이렇게 5개의 칸이 있다고 했을 때 1부터 10까지의 수를 5칸에 넣는다고 하면 자유롭게 숫자를 넣을 수 있다.
하지만 이때 평균을 20으로 한다고 하면 남은 4칸에는 수를 자유롭게 넣을 수 있지만 마지막 칸에는 평균을 20으로 만들 수 있도록 숫자를 넣어줘야 한다. 즉, 하나의 칸은 자유가 없다.
따라서 위의 예시에서의 자유도는 4이며 , 이는 평균이라는 모수 값이 표본의 갯수(n)에서 빠진 갯수이다 (n - 1)
그러므로
다음과 같이 분산 식을 쓸 수 있다. 이렇게 하면 unbiased estimate를 계산하는 것으로, bias가 생기지 않는다.
'통계' 카테고리의 다른 글
베이즈 정리 (0) | 2021.02.20 |
---|---|
크롤리 통계 - 5. 하나의 표본 (0) | 2021.01.21 |
크롤리 통계 - 4. 분산 (0) | 2021.01.18 |
크롤리 통계 - 3. 중심경향 (0) | 2021.01.12 |
크롤리 통계 - 2 (R, 데이터프레임) (0) | 2021.01.12 |