통계8 베이즈 정리 베이즈 정리란 ~ 사전확률과 사후확률의 관계에 대한 설명 P(H|E) : 사후확률, 새로운 정보를 받은 후 갱신된 신뢰도 P(H) : 사전확률, 어떤 사건이 발생했다는 주장에 관한 신뢰도 H : 가설 또는 어떤 사건이 발생했다는 주장 E : 새로운 정보 즉, P(H) 에서 어떤한 정보를 받아 P(H|E) 로 갱신이 되는것 불확실성이나 경험적인 수치를 기반으로 하며 추가되는 정보를 바탕으로 사전확률을 갱신하다. 예시1) 질병A의 발병률은 0.1% 이다. 질병이 실제로 있을 때 질병이 있다고 진단할 확률(민감도, sensitivity)은 99%, 질병이 없을 때 없다고 진단할 확률(특이도, specificity)는 98% 라고 할 때, 어떤 사람이 질병에 걸렸다고 진단 받았을 때, 이 사람이 정말로 질병에 .. 2021. 2. 20. 크롤리 통계 - 5. 하나의 표본 하나의 표본을 가지고 있을 때 알아보고 싶은 것 평균값 평균값과 실제 평균값 간의 차이의 통계적 유의성 평균 추정치의 불확실성 수준 데이터 분포에 대한 다음 사항들을 먼저 확인 해야함 데이터가 정규분포를 따르는가? 데이터에 이상치가 존재하는가? 데이터가 계열 상관(시간에 따른 관계)의 근거가 있는가? --> 비정규성, 이상치, 계열 상관은 스튜던트 t 검정과 같은 모수적 검정의 추론을 무효화할 수 있는 근거가된다. --> 비정규성, 이상치, 계열 상관이 있으면 모수적 검정을 무효화할 수 있다. --> 비정규성이나 이상치가 있는 경우에는 윌콘슨 부호 순위 검정과 같은 비모수 검정 기법을 사용하는 것이 바람직 모수적 검정 : 자료의 분포에 대한 가정을 가지고 접근하는 방식 : 모집단의 자료 분포는 이러이러한.. 2021. 1. 21. 크롤리 통계 - 4.1 분산 복습 분산 분산(variance) : 샘플 평균에서 벗어난 정도 Bias : 평균이 정답에서 얼마나 벗어났는가 모집단 Y의 평균 - Y 각각의 값 --> 결과가 음수가 나올 수 있다. 결과가 음수가 나왔을 때의 대안 1. 절댓값 왼쪽의 그림은 y=x^2 의 그래프이다. 이 그림은 미분이 가능하며 미분을 한다는건 기울기를 그릴 수 있다는 것 이고, 최솟값을 구하는 방법이다. 하지만 절댓값이 들어간 y=|x| 의 그래프를 보면 미분이 불가능하다는 것을 볼 수 있다. 따라서 분산을 구하고자 할 때 확실한 대안은 될 수 없다. 2. 제곱합 값을 추정하는데 이론적 전개를 위해 사용 분산을 구하고자 할 때 확실한 대안이 될 수 있다. 분산 식이 어떻게 만들어졌을까?? σ^2 은 모집단의 분산을 뜻하며 S^2 은 samp.. 2021. 1. 19. 크롤리 통계 - 4. 분산 분산 변량들이 퍼져있는 정도, 분산이 크면 들죽날죽 불안정하다는 의미 데이터의 퍼져 잇는 양상을 봐보자 -평균을 계산하고 그 평균과 데이터 사이의 거리(잔차;residual , 편차;deviation)를 보자 y 어떤 값을 이용할 것인가 for(i in 1:11) lines(c(i,i),c(mean(y),y[i]),col="red") # 데이터 값으로부터 평균까지의 길이를 그려줌 빨간선이 길수록 데이터의 변동선이 크다고 할 수 있다. (-) 경우는 어떻게 계산을 할까?? --> 잔차의 제곱을 이용한다. (절댓값을 이용한 경우에는 미분이 불가능한 부분이 생길 수 있기 때문에) --> 이것을 제곱합(sum of squares)라고 한다. 이렇게 제곱합을 구했는데... 데이터가 추가된다면?? 제곱합은 커지게 .. 2021. 1. 18. 이전 1 2 다음