False Positive 와 False Negative...갑자기 헷갈릴 때가 있네요.. 한 번 정리해 봤습니다.
출처 : http://minjang.egloos.com/1148299

앞에 것은 "병에 걸리지 않았는데 병에 걸렸다고 진단하는 오류"를 가리키며, 후자는 "병에 걸렸는데 병에 걸리지 않았다고 진단하는 오류"를 가리킨다. 컴퓨터 이야기로 응용하면, memory leak을 감지하는 도구가 있다고 할 때, memory leak이 아닌데 memory leak이라고 판단하여 보고하는 것이 False Positive라고 할 수 있다. 바이러스 검사 프로그램 같은 경우, 바이러스가 있음에도 바이러스가 없다고 보고하면 False Negative가 되는 것이다. 보듯이 False Negative가 더 위험한 경우가 많다.

보다 친숙한 통계 용어로 False Positive는 "제 1종의 오류"로 False Negative는 "제 2종의 오류"로 통계학 시간에 배운다. 용어들이 말 장난하는 것 같아서 헷갈리기 딱 좋다. 지금까지 말한 내용을 간단하게 도표로 정리하자. 임신 테스터의 경우를 예로 들어보자 (위키를 참고 하였음):


여기서 이제 실제 숫자를 가지고 이야기를 해보자. 어떤 암이 있는데 이 암에 걸릴 확률이 5/1000 = 0.5%로 알려져 있다고 하자. 어떤 병원에서 이 암을 혈액 검사로 판정하는 방법을 개발하였다. 이 방법의 정확도는 "암이 있을 때 정확히 진단할 확률(양성판정)이 95%", "암이 없을 때 암이 없다라고 정확히 판정할 확률(음성판정)이 99%"로 알려져 있다. 그러나 우리가 병이 있는지 없는지는 아직 모르므로 95%와 99%의 수치는 큰 의미를 가지지 못한다. 대신에, "양성 판정을 받았을 때, 실제 병이 있을 확률"이 결국 이 검사의 정확도를 말해준다.

헷갈린다 @.@ 이것은 수식으로 표현해야 정확해진다. 간단하게 조건부 확률 표기법을 복습하면: 


로 아마 그 옛날 고등학교 시절, 수학 시간에서도 마지막 단원 부근에서나 배웠을 것이다. 풀어서 설명하면, A가 일어났다는 조건하에 B가 일어날 확률을 뜻 한다.

이것을 바탕으로 문제에 주어진 값들을 수식으로 표현해보자. 먼저, 사건 D는 병이 있을 사건을, P는 양성 판정, N는 음성 판정을 가리킨다.


즉, "병이 일어났다는 조건하에 양성 판정을 받을 확률"은 95%로, "병이 일어나지 않았다는 조건하에 음성 판정 받을 확률" 99%로 해석할 수 있다. 그러면, 이제 우리가 구하고 싶은 것은 "양성 판정이 있다는 조건하에 병이 있을 확률"이다. 이것을 수식으로 표현하면:


앞뒤만 바뀐 셈이다. 이것을 구하는 방법은 Bayes's theorem으로 구할 수 있다. 꼭 그렇지 않더라도 줄줄 풀어서 생각하면 위 확률 값을 구할 수 있다.


놀랍게도 불과 32% 밖에 되지 않는다. 한 마디로, 병원에서 병이 있다고 판정이 내려도 실제 이 암에 걸렸을 확률은 32% 밖에 되지 않는다는 것이다. 

왜 이럴까? 일단, 병이 상대적으로 희귀하다는 점을 들 수 있다. 그리고, False Positive, 즉, 병이 없을 때 병이 있다라고 판정하는 비율이 상대적으로 크기 때문이다. 정말? 불과 1%인데? 라고 반문할 수 있을 것이다. 그러나 이 1%가 정확도에 아주 큰 악영향을 미친다. 만약, 이것을 1%에서 0.1%로 10배 개선하면 정확도는 32%에서 83%로 급증한다.

반면, False Negative, 즉, 병이 있는데 병이 없다고 말할 확률은 큰 영향을 주지 않는다. 지금 5%인데, 이것을 0.05%로, 즉 100배 개선을 하여도 정확도는 32%에서 33.43%로 거의 오르지 않는다. 그렇기 때문에 이 경우에는 False Positive를 줄이는 것이 중요하다. 마지막으로 병이 일어날 확률이 더 줄어들면 이 영향은 더욱 커진다. 병에 걸릴 확률이 1/1000 즉, 0.1%가 되면 위의 진단 법은 고작 8.6%의 정확도만 준다

by 쿠리다쿠리 2011. 10. 15. 16:31
| 1 |