본문 바로가기

전체 글79

Survival Analysis and Censored Data 제대로된 공부 포스팅을 안쓴지 반년 정도된 것 같다. 논문에 취업에 너무 바쁜 나머지... 는 핑계란 것을 알지만 ! 그래도 나름 바쁜 사회 생활을 보냈다. 이제는 조금 짬(?)도 찻겠다 ㅋㅋㅋㅋㅋㅋ 업무에 필요한 개념들과 방법론들을 기록하려고 한다. 난 이제 평생 공부해야 하는 운명이니까 ㅋㅋㅋ Fighting K-직장인들 ㅎ 본 포스팅은 ISLR 2 (개정판 2 나왔어요 여러분)를 기반으로 작성합니다. 참 감사하게도 딱 적절한 시기에 내가 공부하고자 한 이론들이 개정판에 추가되었다. 이제부터 생존분석 마스터합니다. ---------------------------------------------------------------------------------------------------------.. 2022. 2. 6.
재표본방법에 기반한 FDR FDR을 통제하면서 다중 검정을 수행하고자 하는데 이론적분포를 사용할 수 없거나 사용을 피해야하는 상황을 생각해보자. 이전 포스팅에서 다뤘던 것 처럼 각 가설에 대한 T통계량을 계산하고, p-value을 계산한다. 그런 후, 각 p-value에 Benjamini-Hochberg 방법을 적용하여 q-value(= FDR과 비교하기 위한 일종의 adjusted p-value)를 도출하는 과정은 동일하다. 재표본을 통해 FDR을 추정하기 위해 먼더 다음의 근사를 수행한다. $FDR = E(\frac{V}{R}) \approx \frac{E(V)}{R}$ R은 기각한 귀무가설의 수를 의미하며 $\sum_{j=1}^m 1_{(|T_j| \leq c)}$ 로 계산할 수 있다. E(V)는 기각한 귀무가설 중 잘못된 .. 2021. 8. 17.
재표본 방법에 기반한 검정(resampling, permutation) 확률변수 X는 처리군에 속한 쥐의 혈압 측정값을 의미하며, 확률변수 Y는 대조군에 속하는 귀의 혈압 측정값을 의미한다. 여기서 우리는 두 집단에 속한 쥐의 평균 혈압이 같은지 여부를 알고 싶고, two-sample t-test를 이용하여 검정을 수행한다. 가설은 다음과 같이 나타낼 수 있다. $H_0 : \mu_x = \mu_y$ vs $H_1 : \mu_x \neq \mu_y$ $\mu_x = E(X) , \mu_y = E(Y)$ 만약, $n_x$와 $n_y$가 크면, T통계량은 근사적으로 표준정규분포를 따른다. 하지만, 작은 경우 확률변수의 근사 분포 가정을 할 수 없기 때문에 T통계량의 귀무가설하에서의 분포를 알 수 없다. 이러한 경우, 우리는 재표본(re-sampling) 방법에 기반하여 T통계량.. 2021. 8. 17.
Type I and Type II errors 귀무가설이 유지되면, 그것은 참인 귀무가설(true null hypothesis)이라고 말한다. 하지만 그렇지 않다면 그것은 거짓 귀무가설(false null hypothesis)이라고 한다. 예를 들어, $H_0$ : $\mu_t = \mu_c$를 검정한다고 하자. 그리고 실제로 두 모집단에서 평균 혈압이 차이가 없다고 하면 귀무가설이 참일 것이다. 차이가 있으면 귀무가설이 거짓일 것이다. 물론 우리는 정말 귀무가설이 참인지 거짓인지 사전에 알 수가 없다. 이러한 이유로 우리는 가설검정을 수행해야한다. 일단 가설검정을 수행하면, 데이터에 기반한 귀무가설 기각여부(Decision)는 알게 된다. 그러나 실제 모집단에서 귀무가설 기각여부(Truth)는 알 수가 없다. 따라서, 우리는 가설검정 수행시 발생할.. 2021. 8. 13.
Derivate-DTW(Derivate Dynamic Time Warping) 이전 포스팅에서 다루었던 DTW는 '속도 또는 길이에 따라 움직임이 다른 두 시계열간의 유사성(거리)을 측정'하는 알고리즘이라고 소개하였다. 많은 분야에서 DTW가 사용되고 있지만, DTW 알고리즘에는 다음의 2가지 알려진 문제점이 있다. 와핑경로(Warping path) 계산 시에 특이점(Singularities)이 발생한다. DTW 알고리즘을 통해 계산된 와핑경로가 올바른지 알 수 없다. 1. 특이점(Singularities) 첫번째 문제로 언급한 특이점은 다음의 상황을 일컫는다. 특이점이란, 위의 그림에서 박스친 부분과 같이 한 패턴(시계열자료)에서 여러 개의 점이 다른 패턴의 한 점에 집중되는 현상을 말한다. 이 특이점은 한 시계열 패턴이 굴곡을 가지는 경우 즉, X(시점) 값에 대한 Y(시계열 .. 2021. 6. 29.
DTW(Dynamic Time Warping) Dynamic Time Warping에서 와핑(warping)의 사전적의미는 뒤틀림, 휨 이라는 뜻을 가지고 있으며, 동적 시간 와핑은 이름과 같이 '속도 또는 길이에 따라 움직임이 다른 두 시계열간의 유사성(거리)을 측정'하는 알고리즘으로, 그 거리가 최소화되는 방향으로 매칭시켜 누적 거리가 최소가 되는 warping(뒤틀림) 경로를 찾는다. DTW는 주로 그래픽, 비디오, 오디오와 같은 분야에서 사용되며, 의료분야에서 보행 유사성, 생체신호 분석에 사용되기도 한다. 특히, 자동음성 인식 분야에서 두각을 보이며 다른 속도를 가지는 음성을 인식하도록 해준다. 예를 들어, 두 사람의 걸음에 대한 유사성을 계산해보자. 두 사람의 걸음 패턴은 속도, 폭 등의 이유로 다르게 나타날 것이다. 이러한 경우, 우리가.. 2021. 6. 25.