본문 바로가기

Statistics22

ITT 원칙과 분석군(FAS, PPS, Safety Set) 임상시험을 수행하다 보면 중도탈락, 임상시험계획서를 위반, 금지된 병용약물을 복용한 피험자들이 발생하기 다수이며, 이런 경우 편의(bias)와, 제1종오류가 커지는 문제가 발생하게 된다. 이러한 문제를 다루는 방법 중 하나로 ITT(intenion-to-treat) 원칙이 존재한다. * ITT(Intent-to-treat) 원칙 : 직관적인 해석에 따르면 목적/계획된 대로 원칙(?)이라고 할 수 있다. ITT 원칙은 1) 랜덤 배정된 피험자들이 실제로 피험자들이 투여받은 치료제에 근거하여 두 그룹을 비교하는 것이 아니라, 원래 그 피험자에게 투여하고자 했던, 랜덤 배정된 치료제에 근거하여 두 그룹을 비교하는 방법이며, 2) 모든 피험자들은 임상시험이 종료될 떄까지 추적이되어서 모든 자료를 얻어야하며, 3.. 2022. 4. 21.
Specificity, Sensitivity, PPV, NPV (+ Recall, Precision) 전 왜 항상 confusion matrix가 익숙하지 않은 걸까요 ? 분명 볼 때마다 이해하고 넘어갔는데 이제는 내 머릿속에 들어올 때도 되지 않았니 ? 이제는 '마지막 리마인드다.. ' 라는 생각으로 포스팅을 써보겠습니다. 포스팅 제목에 써있는 측도들은 주로 분류 모델링에서 성능을 보기 위해 주로 사용됩니다. 아래의 표를 보면 더 각 측도를 구하는 절차를 자세히 알 수 있습니다. 상단의 표(Confusion matrix)에서 열은 실제로 질병이 있는지(양성, +)/없는지(음성, -)를 의미하며, 행은 검사를 수행했을 때 양성(+)/음성(-) 인지를 의미한다. 여기서, 개인적으로 헷갈렸던 점은 하단의 표(Type I error, Type II error)에서는 Positive가 '귀무가설을 기각하는 것'.. 2022. 3. 2.
Survival Analysis and Censored Data 제대로된 공부 포스팅을 안쓴지 반년 정도된 것 같다. 논문에 취업에 너무 바쁜 나머지... 는 핑계란 것을 알지만 ! 그래도 나름 바쁜 사회 생활을 보냈다. 이제는 조금 짬(?)도 찻겠다 ㅋㅋㅋㅋㅋㅋ 업무에 필요한 개념들과 방법론들을 기록하려고 한다. 난 이제 평생 공부해야 하는 운명이니까 ㅋㅋㅋ Fighting K-직장인들 ㅎ 본 포스팅은 ISLR 2 (개정판 2 나왔어요 여러분)를 기반으로 작성합니다. 참 감사하게도 딱 적절한 시기에 내가 공부하고자 한 이론들이 개정판에 추가되었다. 이제부터 생존분석 마스터합니다. ---------------------------------------------------------------------------------------------------------.. 2022. 2. 6.
Type I and Type II errors 귀무가설이 유지되면, 그것은 참인 귀무가설(true null hypothesis)이라고 말한다. 하지만 그렇지 않다면 그것은 거짓 귀무가설(false null hypothesis)이라고 한다. 예를 들어, $H_0$ : $\mu_t = \mu_c$를 검정한다고 하자. 그리고 실제로 두 모집단에서 평균 혈압이 차이가 없다고 하면 귀무가설이 참일 것이다. 차이가 있으면 귀무가설이 거짓일 것이다. 물론 우리는 정말 귀무가설이 참인지 거짓인지 사전에 알 수가 없다. 이러한 이유로 우리는 가설검정을 수행해야한다. 일단 가설검정을 수행하면, 데이터에 기반한 귀무가설 기각여부(Decision)는 알게 된다. 그러나 실제 모집단에서 귀무가설 기각여부(Truth)는 알 수가 없다. 따라서, 우리는 가설검정 수행시 발생할.. 2021. 8. 13.
DTW(Dynamic Time Warping) Dynamic Time Warping에서 와핑(warping)의 사전적의미는 뒤틀림, 휨 이라는 뜻을 가지고 있으며, 동적 시간 와핑은 이름과 같이 '속도 또는 길이에 따라 움직임이 다른 두 시계열간의 유사성(거리)을 측정'하는 알고리즘으로, 그 거리가 최소화되는 방향으로 매칭시켜 누적 거리가 최소가 되는 warping(뒤틀림) 경로를 찾는다. DTW는 주로 그래픽, 비디오, 오디오와 같은 분야에서 사용되며, 의료분야에서 보행 유사성, 생체신호 분석에 사용되기도 한다. 특히, 자동음성 인식 분야에서 두각을 보이며 다른 속도를 가지는 음성을 인식하도록 해준다. 예를 들어, 두 사람의 걸음에 대한 유사성을 계산해보자. 두 사람의 걸음 패턴은 속도, 폭 등의 이유로 다르게 나타날 것이다. 이러한 경우, 우리가.. 2021. 6. 25.
왜, 언제 스케일링(standardization, min-max)를 수행해야 할까 ? 머신러닝, 회귀 등 모델링을 수행할 때 스케일링(scaling)은 중요한 과정 중 하나임을 우리는 알고 있다. 스케일링은 범위를 재정의하는 것을 의미한다. 여기서, 표준화는 스케일링 방법 중 하나이며 우리는 이것이 언제 필요한지는 모른채 무작정 표준화를 수행하는 것이 대부분일 것이다. 본 포스팅에서는 어떻게, 왜, 언제 스케일링를 수행하는지 알아볼 것이다. ○ 왜 스케일링를 수행하는가 ? 데이터를 보면 모든 열들 즉, 변수들은 각자 다른 단위를 가지고 있다. 예를 들어, 키(height)와 몸무게(weight) 변수가 있다고 하면 단위는 각각 (cm, kg)이며 관찰한 표본이 성인이라고 가정할 때 범위는 (150-190cm), (40-100kg) 정도로 다른 단위와 범위를 가지게 된다. 이러한 단위 차이.. 2021. 6. 11.