본문 바로가기
Statistics

Specificity, Sensitivity, PPV, NPV (+ Recall, Precision)

by 뚜찌지롱 2022. 3. 2.

 

 

전 왜 항상 confusion matrix가 익숙하지 않은 걸까요 ? 분명 볼 때마다 이해하고 넘어갔는데 이제는 내 머릿속에 들어올 때도 되지 않았니 ? 이제는 '마지막 리마인드다.. ' 라는 생각으로 포스팅을 써보겠습니다.  

 

 

포스팅 제목에 써있는 측도들은 주로 분류 모델링에서 성능을 보기 위해 주로 사용됩니다. 아래의 표를 보면 더 각 측도를 구하는 절차를 자세히 알 수 있습니다. 

 

Confusion matrix (출처 : https://step1.medbullets.com/stats/101006/testing-and-screening)

 

Type I error, Type II error (출처 :  https://step1.medbullets.com/stats/101011/statistical-hypotheses-and-error, http://experimentaltheology.blogspot.com/2010/09/theology-of-type-1-type-2-errors.html)

 

 

상단의 표(Confusion matrix)에서 열은 실제로 질병이 있는지(양성, +)/없는지(음성, -)를 의미하며, 행은 검사를 수행했을 때 양성(+)/음성(-) 인지를 의미한다. 여기서, 개인적으로 헷갈렸던 점은 하단의 표(Type I error, Type II error)에서는 Positive가 '귀무가설을 기각하는 것' = '귀무가설이 거짓' 임을 의미하기 때문이다. 예측 분류 관점에서 True Positive는 양성으로 판단했는데 실제로 또는 올바르게 양성으로 판단함을 의미하지만, 가설 검정의 관점에서 True Positive는 귀무가설을 기각했는데 실제로 또는 올바르게 귀무가설을 기각함을 의미한다. 같은 뉘양스로 들리지만, 후자에서 Positive를 양성으로 생각하는 순간 개념이 꼬여버린다. (꼬임의 시작-> 귀무가설이 양성이라고 햇는데 실제로 양성임.) 굳이 따지자면, 후자에서 '귀무가설이 참임.'이 Positive가 된다. 두 표는 같은 개념을 다르게 표현한 것 뿐이고 다른 관점에서 보면 되는데 글쓴이는 자꾸 헷갈린다... 아무튼 다시 본론으로 돌아가서, 

 

출처 : https://en.wikipedia.org/wiki/File:Specificity_vs_Sensitivity_Graph.png

위 그림은 질병이 있는 사람들(red line)과 없는 사람들(green line)의 분포인데, 판단한 결과의 지점을 알 수 있다. 검정 점선은 cut-off 를 의미하며, 이 선에 따라 분할표의 count가 달라진다. 예를 들어, cut-off가 높은 값을 가질수록 Positive를 결정하는 기준이 엄격해져 True Positive의 수는 감소하고, False Negative의 수는 증가한다. 반대로 True Negative의 수는 증가하고, False Positive의 수는 감소할 것이다. 이를 우리는 trade-off 관계라고도 한다. 그래서, cut-off 선이 B에 위치할 때 특이도가 100%가 되며, A에 위치할 때는 민감도가 100%가 된다. 하지만, 우리는 두 척도 모두 높길 바라며, 적절한 cut-off를 찾는 것 또한 중요하다. 이는 ROC 커브를 그려서 찾을 수도 있다.

 

 

1. 민감도(Sensitivity) , 재현율(Recall)

 

$\frac{참 양성}{실제 양성} = \frac{TP}{TP+FP}$

 

수식을 풀어서 말하면, 실제로 양성인 사람(TP+FN) 중 올바르게 양성으로 예측한 사람(TP)의 비율을 의미한다. 더 쉽게 말하면, 질병이 있는 사람을 얼마나 잘 찾아 내는가 ? 통계학에서는 sensitivity, 머신러닝에서는 Recall이라는 용어로 사용된다. 

 

 

2. 특이도(Specificity)

 

$\frac{참 음성}{실제 음성}= \frac{TN}{TN+FN}$

 

실제로 음성인 사람(TN+FP) 중 올바르게 음성으로 예측한 사람(TN)의 비율을 의미한다. 더 쉽게 말하면, 정상을 얼마나 잘 찾아 내는가 ?

 

 

3. 양성예측률(Positive Predictive Value), 정밀도(Precision)

 

$\frac{참 양성}{예측 양성} = \frac{TP}{TP+FP}$

 

양성으로 예측한 사람(TP + FP) 중 실제로 양성인 사람(TP)의 비율을 의미한다. 더 쉽게 말하면, 얼마나 질병을 잘 예측했는가 ? 통계학에서는 PPV, 머신러닝에서는 Precision이라는 용어로 사용된다.

 

 

4. 음성예측률(Negative Predictive Value)

 

$\frac{실제 음성}{예측 음성}= \frac{TN}{TN+FN}$

 

음성으로 예측한 사람(TN+FN) 중 실제로 음성인 사람(TN)의 비율을 의미한다. 더 쉽게 말하면, 얼마나 정상을 잘 예측했는가 ?

 

 

정리해보면, sensitivity와 specificity는 실제값에 초점이 맞춰져 있으며 PPV, NPV는 예측값에 초점이 맞춰져 있음을 알 수 있다. 

 

 

 

 

댓글