하나의 표본을 가지고 있을 때 알아보고 싶은 것
- 평균값
- 평균값과 실제 평균값 간의 차이의 통계적 유의성
- 평균 추정치의 불확실성 수준
데이터 분포에 대한 다음 사항들을 먼저 확인 해야함
- 데이터가 정규분포를 따르는가?
- 데이터에 이상치가 존재하는가?
- 데이터가 계열 상관(시간에 따른 관계)의 근거가 있는가?
--> 비정규성, 이상치, 계열 상관은 스튜던트 t 검정과 같은 모수적 검정의 추론을 무효화할 수 있는 근거가된다.
--> 비정규성, 이상치, 계열 상관이 있으면 모수적 검정을 무효화할 수 있다.
--> 비정규성이나 이상치가 있는 경우에는 윌콘슨 부호 순위 검정과 같은 비모수 검정 기법을 사용하는 것이 바람직
모수적 검정 : 자료의 분포에 대한 가정을 가지고 접근하는 방식
: 모집단의 자료 분포는 이러이러한 모양을 따를 것이다 라고 미리 가정하고 출발
: 스튜던트 t 검정
비모수 검정 기법 : 분포 가정이 없이 data를 잘 fitting 하도록 만듬
: 윌콕슨 부호 순위 검정
하나의 표본에서 데이터 요약
데이터 요약 방법 --> R에서 summary 함수를 사용한다.
정규분포
모집단에서 반복적으로 표본을 추출해 각각 평균을 계산할 때 이 평균들은 정규분포를 이룬다. --> 중심 극한 정리
sample size를 늘리면 population(모집단)을 더 많이 커버하게 될 것이다. --> 모집단의 평균에 대한 추정치가 더 정확해질것이다.
표준 정규 분포 : 평균 = 0, 표준편차 = 1의 특수한 정규분포
표준편차(sd) : 분산의 제곱근으로 정의
: 표준편차가 작을수록 평균값에서 변량들의 거리가 가까움
정규분포와 관련된 함수들
dnorm : 확률밀도함수
: 확률변수 X가 정규분포를 따르면 평균값에 대해 좌우대칭이고, 분산값이 크면 더 크게 흩어진 분포를 갖는다.
pnorm : 정규분포에 대한 확률
: 누적확률
: 표준정규분포에서 얼마나 벗어나 있는지, 편차의 수치만 제시해주면 된다.
: pnorm(-2) --> -2라는 값이 해당하는 확률(면적)을 알려준다.
: 정규분포에 위치할 수 있는 어떤 값의 확률을 계산하고 싶을 때
qnorm : 정규분포의 분위수
: qnorm(c(0.025,0.975)) --> 양 끝 확률의 안 쪽 면적이 되는 값, 이 경우 양 끝 확률을 제외한 95%에 해당하는 면적을 나타내며 평균에서 -1.96 표준편차와 +1.96 표준편차만큼 벗어난 범위 안에 놓이게 된다.
: 확률을 제시하고 그에 대응하는 값을 알고 싶을 때
정규분포의 z값을 이용한 계산
z값 : 표준정규분포에서 확률을 구하는게 더 쉬우므로 z값을 이용하여 구한다.
: 평균값에서 표준편차의 몇배정도 떨어져 있는지를 평가하는 수치
평균 = 0 , 표준편차 = 1 인 표준정규분포일 때
평균 y ̅ 와 표준편차 s를 가진 분포로부터 표준 정규분포의 값으로 바꿔줄 수 있다.
예) 100명의 키, 키의 평균 = 170cm 표준편차 = 8cm 일때
par(mfrow=c(2,2))
ht <- seq(150,190,0.01)
pd <- dnorm(ht,170,8)
plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")
plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")
yv <- pd[ht <= 160]
xv <- ht[ht <= 160]
xv <- c(xv,160,150)
yv <- c(yv,yv[1],yv[1])
polygon(xv,yv,col = "orange")
plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")
yv <- pd[ht >= 185]
xv <- ht[ht >= 185]
xv <- c(xv,190,185)
yv <- c(yv,yv[501],yv[501])
polygon(xv,yv,col = "blue")
plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")
yv <- pd[ht >= 160 & ht <= 180]
xv <- ht[ht >= 160 & ht <= 180]
xv <- c(xv,180,160)
yv <- c(yv,pd[1],pd[1])
polygon(xv,yv,col = "green")
주황색 : 160cm보다 작을 확률 z=(160-170)/8 = -1.25
pnorm(-1.25) --> 0.1056498 이 나오고 이는 -1.25를 포함해 그 이하의 값을 얻게 될 확률이 10%라는 뜻이다.
파란색 : 어떤 사람이 185cm보다 클 확률 z=(185-170)/8 = 1.875
pnorm(1.875) --> 0.9696036 이 나오고 이는 어떤 사람이 185cm보다 작을 확률을 나타내므로 1에서 빼준다.
그럼 3%가 나옴.
초록색 : 임의로 선택한 측정치가 165cm와 180cm 사이에 있을 확률
z1=(165-170)/8 = -0.625
z2=(180-170)/8 = 1.25
두개의 z 값 사이의 확률을 계산해야 하므로 큰확률에서 작은확률을 뺀다.
pnorm(1.25) - pnorm(-0.625) = 0.6283647
그러므로 저 초록색의 확률은 약 63% 이다
하나의 표본에서 정규성 검정을 위한 plot
정규성 검정 방법 중 가장 간단한 것 --> 분위수-분위수 플롯(quantile-quantile plot)
분위수-분위수 플롯(quantile-quantile plot)
- 정규분포일 때의 이론적 분위수와 표본의 실제 분위수를 비교하는 것
- 표본이 정규분포를 따른다면 직선의 형태로 보임
- qqnorm , qqline 함수 사용
setwd("D:/Statistic_Data/Statistic_Data/")
data <- read.csv("skewdata.csv")
attach(data)
qqnorm(values)
qqline(values,lty=2)
qqnorm() : 정규분포의 qqplot을 그리는 함수
qqline() : 정규분포의 qqplot에서 1Q와 3Q를 지나는 선을 그리는 함수
예) 미켈슨 데이터
light <- read.csv("light.csv")
attach(light)
names(light)
hist(speed)
qqnorm(speed)
qqline(speed,lty=2)
summary(speed)
평균보다 중앙값이 더 크다
QQplot을 그려봤을때 정규분포를 따르지 않는 것을 볼 수 있다.
하나의 표본을 통한 추론
위의 미켈슨의 데이터에 의한 추정치와 우세하게 믿어지던 빛의 속도 값과 비교해 통계적으로 유의한 지 확인해보자
실제적인 검정 값이 990 이라고 한다.
비정규성을 고려할 때 스튜던트 t 검정은 적당하지 않으므로 윌콕슨 부호 순위 검정을 시행해본다.
- 윌콕슨 부호 순위 검정
- 짝지어진 자료에서 대응된 두 집단간에 차이가 있는지 알아보고자 할 때
- 정규분포를 따른다고 보기 힘든 경우
- n수 역시 30이 안되는 경우
- 위의 2가지를 만족하지 못하면 t-test 결과를 신뢰하기 힘들기 때문에 윌콕슨 부호 순위 검정을 시행한다.
- z값을 구하고 이를 이용해 p값 계산
- 본래 윌콘슨 검정은 결과가 범주형 (서열변수)인 경우 주로 사용한다.
- 예) 투약군과 대조군의 통증에 차이가 있는지를 조사할 때
- 통증을 서열변수인 "심함","보통","약함" 등과 같이 조사했을 때 사용된다.
- 하지만 결과가 연속형인 경우더라도 분포가 정규분포를 따르지 않고 n수가 적은 비모수적인 경우에 사용한다.
p = 0.00213 이므로 귀무가설을 기각하고 대립가설을 받아들인다. --> 빛의 속도는 990보다 작다
스튜던트 t 분포
- 표본 크기가 작을 때 ( n < 30 ) 정규분포 대신 사용
- 표준 정규분포의 95% 구간은 -1.96에서 +1.96 표준편차 스튜던트 t 분포는 이보다 큰 구간을 가진다.
- 표본의 수가 작을 수록 구간은 더 커진다.
- 양끝단의 비중이 정규분포에 비해 더 크다 (극단적 현상이 더 자주 발생한다)
- pt와 qt로 대체 가능
- 분산이 같다 (등분산)
- 독립적이어야 한다 - 서로에 영향을 주지 않아야 한다
정규분포와 비교했을 때 t 분포는 좀 더 모여있으면서 양쪽으로 좀 더 두꺼운 꼬리를 보여준다.
정규분포보다 t 분포에서 많이 치우쳐져 있는 값들의 확률이 더 높으며 이에 따라 신뢰구간은 더 넓어지게 된다는 것을 알 수 있다.
실제로 정규분포의 95% 신뢰구간은 +1.96 , -1.96 인데 반해 t 분포의 95% 신뢰구간은 +2.57, -2.57을 얻게된다. (자유도가 5인 경우에)
t-분포의 모양을 결정하는 것은 자유도이며, 자유도가 커질수록 표준정규분포에 가깝다.
자유도가 커질수록 봉우리가 올라가고 작아질수록 봉우리가 내려간다.
스튜던트 t 검정
스튜던트 t test 를 사용하기 위해 만족해야 하는 4가지 조건
- 자료는 모두 동일 간격을 가진 연속형 수치여야 한다
- 두 집단은 서로 독립적이어야 한다
- 자료의 수치는 정규성을 가져야 한다
- 각각의 샘플의 분산이 같아야 한다 (등분산)
예) A약을 먹으면 혈압이 떨어지는가??
약을 먹은 군과 먹지 않은 군의 혈압을 조사해서 (연속형 수치가 나옴) 그 평균에 차이가 있는지 보는 것
'통계' 카테고리의 다른 글
베이즈 정리 (0) | 2021.02.20 |
---|---|
크롤리 통계 - 4.1 분산 복습 (0) | 2021.01.19 |
크롤리 통계 - 4. 분산 (0) | 2021.01.18 |
크롤리 통계 - 3. 중심경향 (0) | 2021.01.12 |
크롤리 통계 - 2 (R, 데이터프레임) (0) | 2021.01.12 |