본문 바로가기

전체 글17

AUC 그려지는 원리? AUC 를 공부하기 전에 알아놓아야 할 것 True Control Disease Predict Control True Negative (TN) False Positive (FP) Disease False Negative (FN) True Positive (TP) 질병인 것을 질병이라고 예측하는 경우 Control이라고 예측한 것이 Control인 경우 1이라는 예측선을 그렸을 때 왼쪽은 CN, 오른쪽은 Disease라고 예측한다. 이 경우, Disease인 것을 Disease라고 잘 예측하기 때문에 sensitivity는 1이 된다. 반대로, Control (CN)은 맞추지 못하므로 specificity는 0이된다. 이런 식으로 threshold (예측선)이 점점 오른쪽으로 이동하며 그림을 그려주는것을 .. 2021. 2. 20.
베이즈 정리 베이즈 정리란 ~ 사전확률과 사후확률의 관계에 대한 설명 P(H|E) : 사후확률, 새로운 정보를 받은 후 갱신된 신뢰도 P(H) : 사전확률, 어떤 사건이 발생했다는 주장에 관한 신뢰도 H : 가설 또는 어떤 사건이 발생했다는 주장 E : 새로운 정보 즉, P(H) 에서 어떤한 정보를 받아 P(H|E) 로 갱신이 되는것 불확실성이나 경험적인 수치를 기반으로 하며 추가되는 정보를 바탕으로 사전확률을 갱신하다. 예시1) 질병A의 발병률은 0.1% 이다. 질병이 실제로 있을 때 질병이 있다고 진단할 확률(민감도, sensitivity)은 99%, 질병이 없을 때 없다고 진단할 확률(특이도, specificity)는 98% 라고 할 때, 어떤 사람이 질병에 걸렸다고 진단 받았을 때, 이 사람이 정말로 질병에 .. 2021. 2. 20.
CEL 파일을 vcf , plink format 파일로 만들기 마이크로어레이를 수행하고 나온 데이터는 CEL이란 확장자를 가진 파일로 나온다. CEL 파일은 Affymetrix DNA 마이크로 어레이 이미지 분석 소프트웨어에 의해 생성 된 데이터 파일이다. 이러한 CEL 파일을 분석하기 위해 vcf로 바꾸거나 plink format으로 바꾼다. CEL 파일을 PLINK format으로 바꾸려면?? (kchip version1.1 일 때) Analysis Power Tools (APT) 사용 apt-geno-qc apt-genotype-axiom apt-format-result 위의 3가지 스텝을 주로 사용하여 분석을 한다. 그 후 vcf 로 만든 파일을 plink command를 사용하여 plink binary file로 변환한다. plink --vcf --make.. 2021. 1. 25.
크롤리 통계 - 5. 하나의 표본 하나의 표본을 가지고 있을 때 알아보고 싶은 것 평균값 평균값과 실제 평균값 간의 차이의 통계적 유의성 평균 추정치의 불확실성 수준 데이터 분포에 대한 다음 사항들을 먼저 확인 해야함 데이터가 정규분포를 따르는가? 데이터에 이상치가 존재하는가? 데이터가 계열 상관(시간에 따른 관계)의 근거가 있는가? --> 비정규성, 이상치, 계열 상관은 스튜던트 t 검정과 같은 모수적 검정의 추론을 무효화할 수 있는 근거가된다. --> 비정규성, 이상치, 계열 상관이 있으면 모수적 검정을 무효화할 수 있다. --> 비정규성이나 이상치가 있는 경우에는 윌콘슨 부호 순위 검정과 같은 비모수 검정 기법을 사용하는 것이 바람직 모수적 검정 : 자료의 분포에 대한 가정을 가지고 접근하는 방식 : 모집단의 자료 분포는 이러이러한.. 2021. 1. 21.