본문 바로가기
Statistics

결측값(Missing Value)

by 뚜찌지롱 2020. 4. 2.

 

실제데이터를 다뤄보면 우리가 생각하는 것 만큼 데이터가 깨끗(clean)하지 않다. 그 중 결측값이 가장 기본적인 원인이되며 다양한 원인들이 있다. 이번 블로그는 결측값에 대해 다뤄보자. 결측값을 처리하지 않고 그대로 분석에 사용하면 큰 오류가 생길 수 있다. 

대부분의 통계분석 방법은 결측값을 포함하는 행을 제외한 뒤 완전한 자료에 대해 분석을 진행한다. 결측의 양이 데이터 셋의 크기에 비해 매우 작은 경우에는 행을 제거하는 방법이 분석의 편의(bias)를 없애기 위한 최선의 전략이 될 수 있다. 그러나 이 방법은 경우에 따라 표본의 수를 크게 줄일 수 있으며, 중요한 정보를 없애게 되어 예측 모형의 성능을 크게 떨어뜨리는 원인으로 작용할 수 있다. 관측된 정보를 최대한 활용하기 이해서는 결측값에 대한 대치(imputation)가 중요하다.

 


결측값은 3가지로 분류된다.

 

1.  결측치 종류

 

(1) 완전 무작위결측(MCAR : missing completely at random) 

 

변수 상에서 발생한 결측치가 다른 변수들과 아무런 상관이 없는 경우 완전 무작위 결측이라고 부른다. 대부분의 결측치 처리 패키지가 MCAR을 가정으로 하고 있고 보통 우리가 생각하는 결측치라고 생각하면 된다. 예를 들어, 데이터를 깜박하고 입력 안하거나 전산오류로 누락된 경우이다. 이러한 결측치는 보통 제거하거나 데이터 셋에서 단순 무작위 표본추출을 통해 완벽한 데이터셋으로 만들 수 있다.

 

(2) 무작위 결측(MAR : missing at random)

 

결측값이 결측된 변수와는 관련이 없지만 다른변수와는 관련이 있는 경우 무작위 결측이라고 부른다. 예를 들어, 여성이 남성보다 체중을 기입하지 않는다. 라고 하면 체중에 결측값이 생기지만 이는 체중 변수와 관련이 있는 것이 아닌 성별 변수와 관련이 있다. 

 

(3) 비 무작위 결측(MNAR : missing at not random)

 

위의 두가지 유형이 아닌 경우 MNAR이라고 하고, 결측값이 결측된 변수와 관련이 있는 경우 비 무작위 결측이라고 한다. 예를 들어, 서비스에 불만족한 고객들은 만족도 설문에 응답하지 않는다.

 


2.  결측치 대치 

결측치의 각 특징에 따라 다른 접근방법이 필요하다.

 

(1) 평균-대치 

 

가장 간명한 결측값 대치는 각 열별로 평균-대치를 하는 방법이다. 이 방법은 경우에 따라 편의를 가져올 수 있다. 예를 들어, 평균-대치는 평균에 변화를 가져오지는 않으나(바람직), 분산으 감소시키는 작용을 한다(바람직하지 않음). 

 

 

 

 

 

배워나가는 과정이므로 결측치 대치에 관한 내용은 계속 보충할것이다!

 

 

<참고문헌>

eda-ai-lab.tistory.com/14

 

댓글