본문 바로가기
통계

베이즈 정리

by BIJoy 2021. 2. 20.

베이즈 정리란 ~ 사전확률과 사후확률의 관계에 대한 설명

P(H|E) : 사후확률, 새로운 정보를 받은 후 갱신된 신뢰도

P(H) : 사전확률, 어떤 사건이 발생했다는 주장에 관한 신뢰도

H : 가설 또는 어떤 사건이 발생했다는 주장

E : 새로운 정보

 

즉, P(H) 에서 어떤한 정보를 받아 P(H|E) 로 갱신이 되는것

불확실성이나 경험적인 수치를 기반으로 하며 추가되는 정보를 바탕으로 사전확률을 갱신하다.

 

예시1) 

질병A의 발병률은 0.1% 이다.

질병이 실제로 있을 때 질병이 있다고 진단할 확률(민감도, sensitivity)은 99%,

질병이 없을 때 없다고 진단할 확률(특이도, specificity)는 98% 라고 할 때,

어떤 사람이 질병에 걸렸다고 진단 받았을 때, 이 사람이 정말로 질병에 걸렸을 확률은????

 

질병A의 발병률은 0.1% --> P(H) = 0.001

질병이 실제로 있을 때 질병이 있다고 진단할 확률(민감도, sensitivity)은 99% --> P(E|H) = 0.99

질병이 없을 때 없다고 진단할 확률(특이도, specificity)는 98% --> P(E^c|H^c) =0.98

 

H = 실제로 병이 있다. TRUE다.

E = Positive로 출력, 병이 있다고 진단을 받았다. 

 

이 식으로 계산을 하면 P(H|E) = 0.047 이 나온다.

원래 알려진건 P(H)의 0.001인데 여러 증거를 통해 주장을 갱신한 것이다.

 

예시2)

예시1에서 한번 양성판정을 받았던 사람이 두번째 검진을 받고 또 양성판정을 받았을 때 이 사람이 실제로 질병에 걸린 확률은???

 

1에서 사후확률(P(H|E)) 이었던 값이 예시2에서는 사전확률(P(H))로 쓰여진다. --> P(H)= 0.047

P(H) = 0.047 , P(H^c) = 1-0.047 = 0.953

그리고 위의 P(H|E)를 구하는 식에 대입을 해보면~

값은 0.709 가 나오게 된다.

 

예시1에서 계산하여 얻은 확률에 근거를 기반으로 하여 한번 더 확률을 갱신하면 약 70%의 확률로 이 사람은 병에 걸렸을 수 있다고 말할 수 있다.

'통계' 카테고리의 다른 글

크롤리 통계 - 5. 하나의 표본  (0) 2021.01.21
크롤리 통계 - 4.1 분산 복습  (0) 2021.01.19
크롤리 통계 - 4. 분산  (0) 2021.01.18
크롤리 통계 - 3. 중심경향  (0) 2021.01.12
크롤리 통계 - 2 (R, 데이터프레임)  (0) 2021.01.12