변수
- 반응변수(y) : 설명 변수의 변화에 따라 변화하는 변수 , y축
- 설명변수(x) : 반응 변수를 변화시키는 변수 , x축
x가 변할때 y가 어떻게 변하는지 봐야 하며, x와 y는 인과관계이다.
- 연속형 변수 : 키나 체중과 같은 실수로 나타낼 수 있는 변수
- 범주형 변수 : 둘 또는 그 이상의 level을 가진 factor로 이루어져있는 변수
가설
- 귀무가설 : '아무 일도 일어나지 않는다.'
--> 데이터를 통해 귀무가설이 확실히 일어나지 않을 것이라 판단될 때 귀무가설을 기각할 수 있다.
- 대립가설 : '어떤 일이 일어난다'
- 좋은 가설 = 기각이 가능한 가설 , 반증이 가능한 가설
ex) A 주장 : 공원에 독수리가 있다. --> 독수리가 숨었을 수도 있고.. 여러 상황이 있음.. 반박불가
B 주장 : 공원에 독수리가 없다. --> 독수리를 보는 순간 B의 가설을 기각할 수 있음.
따라서 B가 좋은 가설
p 값
X : 내가 얻어낸 통계치 , 변수
Xc : 특정한 값
H0 : 영가설
p 값이란?
- 귀무가설이 참이라 가정할 때 관심사건의 검정통계량을 계산하고 이 값과 같거나 큰 경우에 놓일 확률의 추정치
cf) 검정통계량이 크다 = 귀무가설이 참일것 같지 않다 = 귀무가설 기각
- p값은 확률값이며, 영가설이 참일때 내가 관측한 값이 특정값보다 크거나 같을 때 가질 확률
보통 5%의 유의수준(significance level)을 가지며 p값이 0.05보다 작으면 영가설을 기각하고 대립가설을 채택한다.
실제 상황 | |||
영가설이 참 | 영가설이 거짓 | ||
Test 결과 (귀무가설) | 영가설 수용 | 정확 True Negative |
2종오류(Type 2 error) False Negative |
영가설 기각 | 1종오류(Type 1 error) False Positive |
정확 True Positive |
귀무가설이 실제로는 참일 때 , 이를 기각하는 실수 : Type1 error
귀무가설이 실제로는 거짓일 때, 이를 수용하는 실수 : Type2 error
sensitivity (= Recall) = 대립가설이 참일 때(실제가 참일 때), 영가설이 기각된 경우 = TP/(TP+FN)
specificity = 대립가설이 거짓일 때(실제가 거짓일 때), 영가설이 수용된 경우 = TN/(FP+TN)
precision (= Positive Predictive Value, PPV) = 영가설이 기각된 것 중에(Test 결과가 참) 실제 참인 경우 = TP/(TP+FP)
유의수준(a)
- 유의하다고 판단할지 아닐지 구분해주는 기준
- 보통 5%를 많이 사용
--> 유의수준이 5%면, 95% 의 범위는 평범한 경우의 기준이고 이것을 신뢰구간이라고 한다.
- 귀무가설의 기각여부를 결정하는데 사용하는 기준이 되는 확률을 의미
p-value <= a 이면 귀무가설을 기각하고 대립가설을 채택
p-value > a 이면 귀무가설을 기각하지 못하고, 대립가설을 채택하지 못함
신뢰구간 (Confidence Interval , CI)
- 표본추출이 반복해서 이뤄졌을 때 평균이 놓일 수 있는 범위
- 모수가 실제로 포함될 것으로 예측되는 범위 - 샘플링된 표본이 연구중인 모집단을 얼마나 잘 대표하는지 측정
- 신뢰구간에 모집단의 실제 평균값이 포함될 확률을 Confidence Level (신뢰수준) 이라고 함
--> 일반적으로 95% 신뢰수준 사용
- 신뢰구간이 좁을수록, 모집단 평균 추정치가 정확해진다.
- 표본크기(sample size)가 클수록 신뢰구간이 좁아진다.
--> 표본이 클수록 더 정확하게 모집단 평균을 추정할 수 있다.
표준편차
- 평균으로부터 원래 데이터에 대한 오차범위의 근사값
- √분산
분산 = 편차제곱의 평균
분산은 편차에 제곱을 했기 때문에 실제값과 너무 떨어져있으므로 루트를 씌운 표준편차를 사용한다.
'통계' 카테고리의 다른 글
크롤리 통계 - 4.1 분산 복습 (0) | 2021.01.19 |
---|---|
크롤리 통계 - 4. 분산 (0) | 2021.01.18 |
크롤리 통계 - 3. 중심경향 (0) | 2021.01.12 |
크롤리 통계 - 2 (R, 데이터프레임) (0) | 2021.01.12 |
크롤리 통계 - 1.1 (0) | 2021.01.12 |