본문 바로가기
통계

크롤리 통계 - 1. 기본적인 사항

by BIJoy 2021. 1. 11.

변수

 

 - 반응변수(y) : 설명 변수의 변화에 따라 변화하는 변수 , y축

 - 설명변수(x) : 반응 변수를 변화시키는 변수 , x축

x가 변할때 y가 어떻게 변하는지 봐야 하며, x와 y는 인과관계이다.

 

 - 연속형 변수 : 키나 체중과 같은 실수로 나타낼 수 있는 변수

 - 범주형 변수 : 둘 또는 그 이상의 level을 가진 factor로 이루어져있는 변수 

 

가설

 

 - 귀무가설 : '아무 일도 일어나지 않는다.' 

    --> 데이터를 통해 귀무가설이 확실히 일어나지 않을 것이라 판단될 때 귀무가설을 기각할 수 있다. 

 - 대립가설 : '어떤 일이 일어난다'

 

 - 좋은 가설 = 기각이 가능한 가설 , 반증이 가능한 가설

    ex) A 주장 : 공원에 독수리가 있다.  --> 독수리가 숨었을 수도 있고.. 여러 상황이 있음.. 반박불가

         B 주장 : 공원에 독수리가 없다.  --> 독수리를 보는 순간 B의 가설을 기각할 수 있음.

         따라서 B가 좋은 가설

 

p 값

 

X : 내가 얻어낸 통계치 , 변수

Xc : 특정한 값 

H0 : 영가설

정규확률분포

 

p 값이란?

- 귀무가설이 참이라 가정할 때 관심사건의 검정통계량을 계산하고 이 값과 같거나 큰 경우에 놓일 확률의 추정치

 cf) 검정통계량이 크다 = 귀무가설이 참일것 같지 않다 = 귀무가설 기각

- p값은 확률값이며, 영가설이 참일때 내가 관측한 값이 특정값보다 크거나 같을 때 가질 확률

 

보통 5%의 유의수준(significance level)을 가지며 p값이 0.05보다 작으면 영가설을 기각하고 대립가설을 채택한다.

  실제 상황
영가설이 참 영가설이 거짓
Test 결과 (귀무가설) 영가설 수용 정확
True Negative
2종오류(Type 2 error)
False Negative
영가설 기각 1종오류(Type 1 error)
False Positive
정확
True Positive

귀무가설이 실제로는 참일 때 , 이를 기각하는 실수 : Type1 error

귀무가설이 실제로는 거짓일 때, 이를 수용하는 실수 : Type2 error

sensitivity (= Recall) = 대립가설이 참일 때(실제가 참일 때), 영가설이 기각된 경우 = TP/(TP+FN)

specificity = 대립가설이 거짓일 때(실제가 거짓일 때), 영가설이 수용된 경우 = TN/(FP+TN)

precision (= Positive Predictive Value, PPV) = 영가설이 기각된 것 중에(Test 결과가 참) 실제 참인 경우 = TP/(TP+FP)

 

유의수준(a)

 

 - 유의하다고 판단할지 아닐지 구분해주는 기준

 - 보통 5%를 많이 사용

    --> 유의수준이 5%면, 95% 의 범위는 평범한 경우의 기준이고 이것을 신뢰구간이라고 한다.

 - 귀무가설의 기각여부를 결정하는데 사용하는 기준이 되는 확률을 의미

  p-value <= a 이면 귀무가설을 기각하고 대립가설을 채택

  p-value > a 이면 귀무가설을 기각하지 못하고, 대립가설을 채택하지 못함

 

 

신뢰구간 (Confidence Interval , CI)

 

 - 표본추출이 반복해서 이뤄졌을 때  평균이 놓일 수 있는 범위

 - 모수가 실제로 포함될 것으로 예측되는 범위 - 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정

 - 신뢰구간에 모집단의 실제 평균값이 포함될 확률을 Confidence Level (신뢰수준) 이라고 함

   --> 일반적으로 95% 신뢰수준 사용

 - 신뢰구간이 좁을수록, 모집단 평균 추정치가 정확해진다.

 - 표본크기(sample size)가 클수록 신뢰구간이 좁아진다.

    --> 표본이 클수록 더 정확하게 모집단 평균을 추정할 수 있다.

 

표준편차

 

 - 평균으로부터 원래 데이터에 대한 오차범위의 근사값

 - √분산

   분산 = 편차제곱의 평균

   분산은 편차에 제곱을 했기 때문에 실제값과 너무 떨어져있으므로 루트를 씌운 표준편차를 사용한다.

 

'통계' 카테고리의 다른 글

크롤리 통계 - 4.1 분산 복습  (0) 2021.01.19
크롤리 통계 - 4. 분산  (0) 2021.01.18
크롤리 통계 - 3. 중심경향  (0) 2021.01.12
크롤리 통계 - 2 (R, 데이터프레임)  (0) 2021.01.12
크롤리 통계 - 1.1  (0) 2021.01.12