본문 바로가기
통계

크롤리 통계 - 5. 하나의 표본

by BIJoy 2021. 1. 21.

하나의 표본을 가지고 있을 때 알아보고 싶은 것

  1. 평균값
  2. 평균값과 실제 평균값 간의 차이의 통계적 유의성
  3. 평균 추정치의 불확실성 수준

데이터 분포에 대한 다음 사항들을 먼저 확인 해야함

  1.  데이터가 정규분포를 따르는가?
  2.  데이터에 이상치가 존재하는가?
  3. 데이터가 계열 상관(시간에 따른 관계)의 근거가 있는가?

--> 비정규성, 이상치, 계열 상관은 스튜던트 t 검정과 같은 모수적 검정의 추론을 무효화할 수 있는 근거가된다. 

--> 비정규성, 이상치, 계열 상관이 있으면 모수적 검정을 무효화할 수 있다.

--> 비정규성이나 이상치가 있는 경우에는 윌콘슨 부호 순위 검정과 같은 비모수 검정 기법을 사용하는 것이 바람직

 

모수적 검정 : 자료의 분포에 대한 가정을 가지고 접근하는 방식

                : 모집단의 자료 분포는 이러이러한 모양을 따를 것이다 라고 미리 가정하고 출발

                : 스튜던트 t 검정

비모수 검정 기법 : 분포 가정이 없이 data를 잘 fitting 하도록 만듬

                       : 윌콕슨 부호 순위 검정

 

 

하나의 표본에서 데이터 요약

 

데이터 요약 방법 --> R에서 summary 함수를 사용한다.

 

boxplot(y)

 

정규분포

 

모집단에서 반복적으로 표본을 추출해 각각 평균을 계산할 때 이 평균들은 정규분포를 이룬다. --> 중심 극한 정리

sample size를 늘리면 population(모집단)을 더 많이 커버하게 될 것이다. --> 모집단의 평균에 대한 추정치가 더 정확해질것이다.

 

표준 정규 분포 : 평균 = 0, 표준편차 = 1의 특수한 정규분포

 

표준편차(sd) : 분산의 제곱근으로 정의

                 : 표준편차가 작을수록 평균값에서 변량들의 거리가 가까움

                 

정규분포와 관련된 함수들

dnorm : 확률밀도함수

          : 확률변수 X가 정규분포를 따르면 평균값에 대해 좌우대칭이고, 분산값이 크면 더 크게 흩어진 분포를 갖는다.

pnorm : 정규분포에 대한 확률

          : 누적확률

          : 표준정규분포에서 얼마나 벗어나 있는지, 편차의 수치만 제시해주면 된다. 

          : pnorm(-2) --> -2라는 값이 해당하는 확률(면적)을 알려준다. 

          : 정규분포에 위치할 수 있는 어떤 값의 확률을 계산하고 싶을 때

qnorm : 정규분포의 분위수

          : qnorm(c(0.025,0.975)) --> 양 끝 확률의 안 쪽 면적이 되는 값, 이 경우 양 끝 확률을 제외한 95%에 해당하는               면적을 나타내며 평균에서 -1.96 표준편차와 +1.96 표준편차만큼 벗어난 범위 안에 놓이게 된다.

          : 확률을 제시하고 그에 대응하는 값을 알고 싶을 때

 

 

정규분포의 z값을 이용한 계산

 

z값 : 표준정규분포에서 확률을 구하는게 더 쉬우므로 z값을 이용하여 구한다. 

     : 평균값에서 표준편차의 몇배정도 떨어져 있는지를 평가하는 수치

평균 = 0 , 표준편차 = 1 인 표준정규분포일 때 

평균 y ̅ 와 표준편차 s를 가진 분포로부터 표준 정규분포의 값으로 바꿔줄 수 있다. 

 

예) 100명의 키, 키의 평균 = 170cm  표준편차 = 8cm 일때

par(mfrow=c(2,2))
ht <- seq(150,190,0.01)
pd <- dnorm(ht,170,8)
plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")

plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")
yv <- pd[ht <= 160]
xv <- ht[ht <= 160]
xv <- c(xv,160,150)
yv <- c(yv,yv[1],yv[1])
polygon(xv,yv,col = "orange")

plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")
yv <- pd[ht >= 185]
xv <- ht[ht >= 185]
xv <- c(xv,190,185)
yv <- c(yv,yv[501],yv[501])
polygon(xv,yv,col = "blue")

plot(ht,dnorm(ht,170,8),type="l",col="brown",ylab = "Probability density",xlab = "Height")
yv <- pd[ht >= 160 & ht <= 180]
xv <- ht[ht >= 160 & ht <= 180]
xv <- c(xv,180,160)
yv <- c(yv,pd[1],pd[1])
polygon(xv,yv,col = "green")

주황색 : 160cm보다 작을 확률 z=(160-170)/8 = -1.25

pnorm(-1.25) --> 0.1056498 이 나오고 이는 -1.25를 포함해 그 이하의 값을 얻게 될 확률이 10%라는 뜻이다.

파란색 : 어떤 사람이 185cm보다 클 확률 z=(185-170)/8 = 1.875

pnorm(1.875) --> 0.9696036 이 나오고 이는 어떤 사람이 185cm보다 작을 확률을 나타내므로 1에서 빼준다.

그럼 3%가 나옴.

초록색 : 임의로 선택한 측정치가 165cm와 180cm 사이에 있을 확률

z1=(165-170)/8 = -0.625 

z2=(180-170)/8 = 1.25

두개의 z 값 사이의 확률을 계산해야 하므로 큰확률에서 작은확률을 뺀다.

pnorm(1.25) - pnorm(-0.625) = 0.6283647

그러므로 저 초록색의 확률은 약 63% 이다

 

하나의 표본에서 정규성 검정을 위한 plot

 

정규성 검정 방법 중 가장 간단한 것 --> 분위수-분위수 플롯(quantile-quantile plot)

분위수-분위수 플롯(quantile-quantile plot)

   - 정규분포일 때의 이론적 분위수와 표본의 실제 분위수를 비교하는 것

   - 표본이 정규분포를 따른다면 직선의 형태로 보임

   - qqnorm , qqline 함수 사용 

setwd("D:/Statistic_Data/Statistic_Data/")
data <- read.csv("skewdata.csv")
attach(data)
qqnorm(values)
qqline(values,lty=2)

 

 

 

qqnorm() : 정규분포의 qqplot을 그리는 함수

qqline() : 정규분포의 qqplot에서 1Q와 3Q를 지나는 선을 그리는 함수 

 

 

 

 

 

 

 

 

예) 미켈슨 데이터

light <- read.csv("light.csv")
attach(light)
names(light)
hist(speed)
qqnorm(speed)
qqline(speed,lty=2)
summary(speed)

 

 

 

 

 

평균보다 중앙값이 더 크다

QQplot을 그려봤을때 정규분포를 따르지 않는 것을 볼 수 있다. 

 

 

 

 

 

 

 

 

 

하나의 표본을 통한 추론

 

위의 미켈슨의 데이터에 의한 추정치와 우세하게 믿어지던 빛의 속도 값과 비교해 통계적으로 유의한 지 확인해보자

실제적인 검정 값이 990 이라고 한다.

비정규성을 고려할 때 스튜던트 t 검정은 적당하지 않으므로 윌콕슨 부호 순위 검정을 시행해본다.

  • 윌콕슨 부호 순위 검정 
    • 짝지어진 자료에서 대응된 두 집단간에 차이가 있는지 알아보고자 할 때
    • 정규분포를 따른다고 보기 힘든 경우
    • n수 역시 30이 안되는 경우 
    • 위의 2가지를 만족하지 못하면 t-test 결과를 신뢰하기 힘들기 때문에 윌콕슨 부호 순위 검정을 시행한다.
    • z값을 구하고 이를 이용해 p값 계산
    • 본래 윌콘슨 검정은 결과가 범주형 (서열변수)인 경우 주로 사용한다.
      • 예) 투약군과 대조군의 통증에 차이가 있는지를 조사할 때
      • 통증을 서열변수인 "심함","보통","약함" 등과 같이 조사했을 때 사용된다.
    • 하지만 결과가 연속형인 경우더라도 분포가 정규분포를 따르지 않고 n수가 적은 비모수적인 경우에 사용한다.

 

p = 0.00213 이므로 귀무가설을 기각하고 대립가설을 받아들인다. --> 빛의 속도는 990보다 작다

 

 

 

스튜던트 t 분포

 

  • 표본 크기가 작을 때 ( n < 30 ) 정규분포 대신 사용
  • 표준 정규분포의 95% 구간은 -1.96에서 +1.96 표준편차 스튜던트 t 분포는 이보다 큰 구간을 가진다. 
  • 표본의 수가 작을 수록 구간은 더 커진다. 
  • 양끝단의 비중이 정규분포에 비해 더 크다 (극단적 현상이 더 자주 발생한다)
  • pt와 qt로 대체 가능
  • 분산이 같다 (등분산)
  • 독립적이어야 한다 - 서로에 영향을 주지 않아야 한다

정규분포와 비교했을 때 t 분포는 좀 더 모여있으면서 양쪽으로 좀 더 두꺼운 꼬리를 보여준다.

정규분포보다 t 분포에서 많이 치우쳐져 있는 값들의 확률이 더 높으며 이에 따라 신뢰구간은 더 넓어지게 된다는 것을 알 수 있다.

실제로 정규분포의 95% 신뢰구간은 +1.96 , -1.96 인데 반해 t 분포의 95% 신뢰구간은 +2.57, -2.57을 얻게된다. (자유도가 5인 경우에)

 

t-분포의 모양을 결정하는 것은 자유도이며, 자유도가 커질수록 표준정규분포에 가깝다.

자유도가 커질수록 봉우리가 올라가고 작아질수록 봉우리가 내려간다.

 

스튜던트 t 검정

 

스튜던트 t test 를 사용하기 위해 만족해야 하는 4가지 조건

  1. 자료는 모두 동일 간격을 가진 연속형 수치여야 한다
  2. 두 집단은 서로 독립적이어야 한다
  3. 자료의 수치는 정규성을 가져야 한다
  4. 각각의 샘플의 분산이 같아야 한다 (등분산)

예) A약을 먹으면 혈압이 떨어지는가?? 

약을 먹은 군과 먹지 않은 군의 혈압을 조사해서 (연속형 수치가 나옴) 그 평균에 차이가 있는지 보는 것

 

 

'통계' 카테고리의 다른 글

베이즈 정리  (0) 2021.02.20
크롤리 통계 - 4.1 분산 복습  (0) 2021.01.19
크롤리 통계 - 4. 분산  (0) 2021.01.18
크롤리 통계 - 3. 중심경향  (0) 2021.01.12
크롤리 통계 - 2 (R, 데이터프레임)  (0) 2021.01.12