과학 커뮤니케이션 경연, 페임랩 본선 전에 참가자들은 간단한 교육과 피드백을 받는다. 내가 참여한 해에는 영국의 전문 과학커뮤니케이터인 휴 제임스가 이 부분을 맡아서 진행해주었다. 내 원고를 검토해준 제임스는, 전체적으로 어려운 편이라고 평했다. 엑기스만 남기고 다듬느라 공들인 노력이 부정당하는 느낌에 발끈할 뻔했다. 이렇게나 애썼는데도 여전히 부족하다니! 여기서 어떻게 더 쉽게 쓰냐고 억울해하려다가, 조언을 받아들이기로 마음을 고쳐먹었다. 나는 커뮤니케이션 초보잖아. 모름지기 초짜일 때는 ‘전문가’의 권위에 의존하는 것이 안전하다.
“제임스, 어느 부분이 어렵게 느껴지는데? 내가 고쳐서 다시 써볼게.”
“봐봐. 너는 ‘태반’이라는 단어를 여러 번 썼잖아. 이런 전문용어는 가급적 줄이거나, 꼭 필요하다면 부연설명을 해야 해.”
내 안의 산부인과 의사가 재잘대며 냉큼 튀어나왔다. 비교적 어려운 단어일 수는 있으나, 태반은 그저 임신의 부산물이 아니고, 임신 중에 모체와 아기 사이에서 영양 교환과 태아 보호, 성장에 필수적 역할을 하는 중요한 기관이라서, 명확한 학술용어로 불러야 한다는 주절주절 똥고집을 발휘하려다가… 접었다. 그래, 어렵게 느껴질 수도 있어. 네 말이 맞아. ‘태반’ 뺄게. 단어를 바꾸면서 의미가 불분명해지는 것이 못마땅했지만, 일단은 ‘아기집’이란 평어를 쓰기로 양보했다.
“그런데 내 고민은 이거야. 이렇게 자꾸 요약하고 단순화하다 보면, 과학적으로 정확하지 않은 말이 되어버린다고. 듣는 사람들이 오해를 하면 안 되잖아.”
“나도 거기에 동감해. 그런데 이렇게 생각해보자. 나는 물리학자야. 대중 강의에서 설명할 때, 달이 지구를 공전하듯이 전자가 원자핵 주변을 뱅뱅 돌고 있다고 비유할 때도 있어. 물론 실제로 원자핵과 전자가 존재하는 방식은 전혀 그렇게 단순하지 않지.하지만 핵심적인 의미를 전달하기 위해서, 그냥 그렇게 말할 때도 있어.”
“정확하지 않은데도?”
“정확한 것은 정말 중요해. 그런데 때로는, 그런 식의 표현이 필요할 때도 있다고 생각해.”
과학 커뮤니케이터는 이런 갈등에 매번 부딪히고, 나름대로의 숙고를 거쳐 접점을 찾는다. 커뮤니케이션은 많은 사람들에게 도달해야 목적을 달성한다. 메시지가 어렵고 재미없으면 멀리까지 가지 못하고, 단편적이고 말초적인 흥미만 추구하면 무의미해진다. 나의 고민도 현재 진행형이다. 정확하고 엄밀하게 논증할 거라면 논문을 쓰는 게 낫다. 마냥 가볍고 재미나게 만들겠다고 뭉뚱그리다 보면 아무것도 남지 않는다. 아니, 차라리 아무것도 남지 않으면 다행이다. 세상에는 조금 부정확할지언정 크게 해가 되지 않는 지식이 있는 반면에, 약간의 오해가 돌이킬 수 없을 만큼 나쁜 결과를 가져오는 지식도 있다. 예를 들기 위해 내가 소개하려고 하는 NIPT(비침습적 산전 선별검사)라는 태아 기형아 검사기법으로 돌아가 보자. 나는 의도적으로 매우 중요한 정보를 누락하고 설명했다. 실제로 페임랩 본선에서 심사를 맡은 카이스트의 정재승 교수님이 내 발표를 듣고 이 질문을 던졌다.
저 짧은 질문에 대답하는 방법은 무척 간단할 것만 같다. 예를 들면 ‘기존 기형아 검사법은 95% 정확했는데, NIPT라는 새로운 검사법은 99%나 정확합니다!’라고 대답해주면 알아듣기 참으로 쉬울 것만 같다.그런데 사실 꼭 그렇지는 않다.검사 결과가 얼마나 믿을 만한지는 한 가지가 아니라 네 가지 지표로 표현한다. (참고로 아래의 몇 문단은 내 글 전체에서 가장 따분하고 어려운 부분이지만, 인내심을 가질 만한 가치가 있다.) 민감도, 특이도, 양성 예측도, 음성 예측도이다. 그냥 정확도라고 하면 안 되나? 딱 하나의 숫자로 말하면 편할 텐데, 왜 골치 아프게 네 가지나 만들었느냐? 통계학자들이 잘난 척하려고 일부러 여러 가지 항목을 개발한 것이 아니다. 언제나 오차가 존재할 수밖에 없는 테스트의 특성 때문에, 신뢰도를 표현하려면 그렇게 할 수밖에 없다. 아무리 훌륭한 검사도 현실을 100% 반영할 수는 없다. 고위험 또는 저위험으로 판정하는 NIPT 검사를 예로 들어 표현하면 대략 이런 식이다. (아래의 문장은 이해를 돕기 위해 간략히 표현했으며,오류가 내포되어 있다.)
특정 검사의 민감도는 ‘병을 병이라고 할 확률’, 특이도는 ‘정상을 정상이라고 할 확률’로 이해해도 된다. (민감함과 특이함은 일상어에서 ‘너 너무 민감하게 반응하는 거 아냐?’ 혹은 ‘걔 성격 참 특이해’처럼 쓰이겠지만, 그런 특성과는 전혀 상관없는 통계 용어이다.) 이 두 가지는 검사 자체의 속성이다. 그런데 통상 생각해 보았을 때 어떤 검사가 쓸만하려면 병도 잘 찾아내고, 병이 아닌 것도 아니라고 잘 걸러내야만 할 것 같다. 당연히 양쪽 다 중요하지만, 문제는 저 두 가지가 동시에 달성하기가 어려운 과제라는 것이다. 둘 중 어느 한쪽을 향상하기 위해서는, 반대쪽은 포기해야 하는 관계인 경우가 많다. 만약 민감도와 특이도가 모두 완벽하다면 그것은 확진검사이지 선별검사가 아니다. 지금 우리는 오차를 포함하는 불완전한 검사(선별검사)에 대해서 이야기하고 있다.
양성 예측도와 음성 예측도는 ‘병이 존재하는 비율’에 영향을 받는다. 검사 자체의 내재적 속성(민감도/특이도)이 매우 우수하더라도, 병의 빈도가 희귀하다면 막상 결과값의 신뢰도(양성 예측도/음성 예측도)는 크게 변할 수도 있다. 직관적인 이해를 위해서 밑의 예시를 참고하는 것이 좋다.
혼란스러운 통계 용어를 기억하는 것보다 중요한 것은,네 가지 지표의 정의와 수치가 모두 다르다는 것이다. NIPT는 민감도(병을 병이라고 할 확률)가 99%를 상회하는 훌륭한 검사 기법이다. 하지만 양성 예측도(기형 고위험이라는 검사 결과지를 받았을 때, 그것이 사실일 확률)는 절대 그만큼 높지 않다. 물론 민감도도 정확성 지표 중 하나이므로, “이건 99% 정확한 검사에요.”라고 표현하는 것이 틀렸다고 말할 수 없다. 하지만 최악의 최악을 가정해보자. 결과지를 받아 든 산모가, 완전히 다른 두 가지 수치인 민감도와 양성 예측도를 혼동하는 것이다.
글로 설명하기에도 이렇게 복잡한 통계적 지식을 짧은 진료 시간에 온전히 전달할 수도 없으니, 실제 임상 현장에서 충분히 일어날 수 있는 일이다. 염색체 이상 가능성이 높다는 충격적인 결과지를 받아 든 산모가, 뱃속의 아기를 기형아라고 간주해서 중절(인공유산)해버리는 끔찍한 경우를 가정해보자. 검사에서 기형 고위험이라고 나왔어도, 막상 실제로 아기가 기형아일 확률은 99%보다 훨씬, 훨씬 낮다. 염색체 이상의 종류에 따라서, 그리고 산모 나이에 따라서, 양성 예측도는 불과 절반에 못 미치기도 한다. [1] 그러니 반드시 확진 검사를 통해서 다시 한번 들여다봐야 한다.