본문 바로가기
Statistics/Bio

Survival Analysis and Censored Data

by 뚜찌지롱 2022. 2. 6.

 

제대로된 공부 포스팅을 안쓴지 반년 정도된 것 같다. 논문에 취업에 너무 바쁜 나머지... 는 핑계란 것을 알지만 ! 그래도 나름 바쁜 사회 생활을 보냈다. 이제는 조금 짬(?)도 찻겠다 ㅋㅋㅋㅋㅋㅋ 업무에 필요한 개념들과 방법론들을 기록하려고 한다. 난 이제 평생 공부해야 하는 운명이니까 ㅋㅋㅋ Fighting K-직장인들 ㅎ

 

본 포스팅은 ISLR 2 (개정판 2 나왔어요 여러분)를 기반으로 작성합니다. 참 감사하게도 딱 적절한 시기에 내가 공부하고자 한 이론들이 개정판에 추가되었다. 이제부터 생존분석 마스터합니다. 

 

----------------------------------------------------------------------------------------------------------------------------------

 

생존분석은 어떤 연구에 들어온 시간부터 어떤 사건이 발생할 때까지의 시간구간(time interval) 데이터에 관심이 있다. 예를 들면, 암(cancer) 환자들의 경우 치료를 위하여 어떠한 처리(treatment)를 받는 사람과 받지 않는 사람이 존재할 수 있다. 이 때, 생존분석의 목적은 처리의 수행 유무가 환자들의 생존과 사망에 어떠한 영향을 미치는지 분석하는 것이다. 요즘 생존분석은 의료, 산업체, 마케팅, 사회과학 등 다양한 분야에서 사용되고 있다.  

 

생존 분석의 데이터 구조는 각 행은 환자에 해당하며, 열은 각 환자에 대한 변수 정보이다. 또한, 반응변수(outcome)는 특정 event(사망, 재발 등)가 발생하는지 여부를 의미한다. 여기서, 생존데이터의 특성상 censored라는 개념이 사용되는데 이는 관찰 기간내에 추적(follow up)에 실패하는 것을 말한다. 예들 들어, 사망시점까지의 생존시간 데이터에 대한 연구를 진행할 경우, 사건이 발생하지 않을 수 있고, 중도에 환자가 살아있음에도 불구하고 병원을 옮기는 등 여러 이유로 연락이 안될 수 있다. 이 그 외에도 Time이라는 변수가 꼭 필요한데, 이는 event가 발생할 때까지 걸린 시간을 의미하며 Y와 Time을 기반으로 사람들의 생존율, 재발율을 추정하거나 생존, 재발 여부를 예측하기 위함이다.  

 

 

 

'Statistics > Bio' 카테고리의 다른 글

ITT 원칙과 분석군(FAS, PPS, Safety Set)  (0) 2022.04.21

댓글