통계적 유의성과 임상적 유의성의 차이: p값 뒤의 진짜 질문

임상 논문을 읽다 보면 거의 모든 결과에 ‘p < 0.05'라는 숫자가 따라붙는다. 이 숫자를 본 독자는 대개 '효과가 있다는 뜻'으로 받아들인다. 틀린 해석이다. p값은 오직 '이 결과가 우연일 확률이 5% 미만'이라는 통계적 진술일 뿐, 그 효과가 실제 환자에게 의미 있는 크기인지에 대해서는 아무 말도 하지 않는다.

통계적 유의성(statistical significance)과 임상적 유의성(clinical significance)의 간극은 현대 의료가 오래 다뤄온 숙제 중 하나다. 10만 명을 대상으로 한 대규모 연구는 혈압을 0.5mmHg만 낮춰도 통계적으로 유의한 결과를 만들 수 있다. 그러나 0.5mmHg의 혈압 감소는 실제 환자의 심혈관 위험을 의미 있게 낮추지 못한다. 숫자는 유의하지만, 환자에게는 무의미한 것이다. 이 글은 두 유의성이 어떻게 갈라지는지, 그리고 이 간극을 읽지 못하면 어떤 판단 오류가 일어나는지를 해부한다.

p값의 실체: 가설 검정의 내부 구조

대부분의 임상 연구는 귀무가설(null hypothesis) 검정 구조를 따른다. ‘이 약은 효과가 없다’를 기본 가정으로 두고, 관측된 데이터가 이 가정 하에서 얼마나 있을 법하지 않은지를 계산하는 것이 p값(p-value)이다. p값이 0.05보다 작다는 것은 ‘귀무가설이 참이라면 이런 데이터가 우연히 나올 확률이 5% 미만’이라는 뜻이다.

0.05라는 관습의 기원

왜 하필 0.05인가. 이 기준에는 수학적 필연이 없다. 20세기 초 통계학자 로널드 피셔가 ’20분의 1이라는 직관적으로 드문 수준’으로 임의 설정한 것이 그대로 관습이 되었다. 피셔 본인조차 이 기준을 절대적 진리로 제시하지 않았다. 그러나 이후 의료와 사회과학 전반에서 0.05가 ‘과학적 타당성’의 대체 표지로 고착되면서 현재의 혼란이 시작되었다.

통계적 유의성이 말하지 않는 것

p = 0.03이라는 결과는 ‘이 효과가 진짜일 확률이 97%’라는 뜻이 아니다. 통계적 유의성은 오직 관측된 데이터와 귀무가설 사이의 거리만 측정한다. 효과의 실제 크기, 임상적 중요성, 환자가 체감할 변화의 규모에 대해서는 아무 말도 하지 않는다. 많은 임상의가 이 구분을 간과하고 p값 자체를 결론으로 취급한다. 이 습관이 수많은 잘못된 처방의 기반이 된다.

임상적 유의성: 환자의 몸에서 실제로 일어나는 변화

임상적 유의성은 전혀 다른 질문에 답한다. ‘이 효과의 크기가 환자의 삶에 의미 있는가’라는 질문이다. 혈압이 2mmHg 떨어졌을 때 환자가 체감할 변화가 있는가. 통증이 10점 척도에서 1점 줄었을 때 일상이 달라지는가. 이 질문에는 통계가 아닌 임상 경험과 환자 중심의 판단이 필요하다.

최소 임상 의미 차이라는 개념

의료 연구자들은 ‘최소 임상 의미 차이(Minimum Clinically Important Difference, MCID)’라는 개념으로 이 문제에 접근해왔다. 특정 질환에서 환자가 ‘의미 있는 개선’이라고 느끼는 효과의 최소 크기를 사전에 정의하고, 통계적 결과가 이 기준을 넘어서야 비로소 임상적으로 유의하다고 판정하는 방식이다. MCID는 집단 평균의 숫자가 아닌, 개별 환자의 체감에 근접하려는 시도다.

효과 크기의 정량화

임상적 유의성을 수치로 표현할 때 가장 많이 쓰이는 지표는 ‘효과 크기(effect size)’와 ‘신뢰 구간(confidence interval)’이다. 효과 크기는 단위 자체로 영향의 규모를 보여주고, 신뢰 구간은 그 영향이 놓일 수 있는 범위를 보여준다. 좋은 임상 논문은 p값만이 아니라 이 세 지표를 함께 제시한다. p값만 부각된 논문은 해석 단계에서 더 의심해야 하는 대상이다.

두 유의성이 갈라지는 네 가지 함정

통계적으로 유의한데 임상적으로 무의미한 결과는 네 가지 전형적 함정에서 나온다. 이 패턴을 알아두면 논문을 읽을 때 오류를 빠르게 식별할 수 있다.

대규모 표본의 역설

표본 크기가 충분히 크면 아주 작은 효과도 통계적으로 유의해진다. 10만 명 대상 연구에서 혈당이 0.8mg/dL 떨어졌다는 결과는 p값이 극히 낮게 나올 수 있지만, 실제 당뇨 관리에는 기여하지 못하는 변화다. ‘유의하다’는 문구가 곧 ‘중요하다’가 아님을 보여주는 대표 사례다.

대리 지표의 오류

많은 연구가 실제 임상 결과 대신 ‘대리 지표(surrogate endpoint)’로 효과를 측정한다. 예를 들어 심근경색 발생률 대신 LDL 콜레스테롤 수치를 쓰는 식이다. 대리 지표는 측정이 빠르지만, 이 지표가 실제 임상 결과와 연결되지 않으면 통계적 유의성이 임상적 의미로 전환되지 않는다.

이상치에 끌려가는 평균

통계적 유의성은 평균을 중심으로 계산되기에, 소수의 극단적 반응자가 평균을 끌어올리면 전체 효과가 과대평가된다. 이 경우 ‘유의한 효과’라는 결론 뒤에는 ‘대부분의 환자에게는 효과가 없었다’는 현실이 숨어 있다. 정밀 의료와 표준 의료의 경계에서 다룬 반응자/비반응자 분리가 바로 이 함정을 극복하려는 시도다.

다중 비교의 덫

한 연구에서 수십 개의 변수를 동시에 검정하면, 그중 일부는 우연히 p < 0.05를 만족하게 된다. 연구자가 이를 '유의한 발견'으로 보고하면 실제로는 통계적 우연을 실체로 오인하는 오류가 발생한다. 현대 임상 통계에서 다중 비교 보정(multiple comparison correction)이 필수 절차가 된 이유다.

실전 해석의 기준선

논문이나 검사 결과지 앞에서 통계적 유의성과 임상적 유의성을 구분하려면 세 가지 질문을 던지면 된다. 첫째, 이 통계적 유의성의 실제 효과 크기는 얼마인가. 둘째, 그 크기가 이 질환의 MCID를 넘어서는가. 셋째, 표본 크기와 연구 설계가 효과 과대평가로 이어질 가능성은 없는가.

p값 이후의 질문

유의성을 확인한 뒤에 정말 중요한 단계가 시작된다. ‘이 효과가 이 환자에게 어떤 의미를 가질 것인가’라는 개인화된 질문이다. 이 질문에는 통계가 답하지 않는다. 환자의 기대 수명, 삶의 질 우선순위, 부작용 수용 범위 같은 개별 요인이 결합해야 비로소 결정에 도달할 수 있다.

숫자 중독에서 벗어나는 훈련

p값은 도구이지 결론이 아니다. 훌륭한 임상의는 p값을 존중하되 그것에 종속되지 않고, 효과 크기·신뢰 구간·임상 맥락을 함께 저울질한다. 이 균형 감각은 의료를 넘어 모든 데이터 기반 판단 영역에 적용된다. 숫자가 제공하는 정확성과 그 숫자가 담지 못하는 맥락을 동시에 다루는 능력, 그것이 데이터 시대의 진짜 리터러시다.

임상적 시사점

두 유의성의 구분은 단순한 학술적 세부 사항이 아니라 실제 환자의 치료 경로를 좌우하는 결정적 지점이다. 통계적으로 유의하다는 이유만으로 환자에게 부작용 가능성이 있는 약을 처방하는 것은 숫자에 휘둘린 판단이고, 임상적으로 의미 있는 변화를 p값이 작다는 이유만으로 일축하는 것도 같은 오류의 다른 얼굴이다. 성숙한 임상 판단은 두 유의성이 모두 충족될 때 가장 안전한 결정이 된다는 사실을 인식하는 데서 시작한다.

자주 묻는 질문

Q. p값이 낮을수록 더 신뢰할 수 있는 결과인가요?

부분적으로만 맞습니다. p값이 낮다는 것은 관측된 결과가 우연에 의한 것일 가능성이 낮다는 통계적 진술이지만, 효과의 실제 크기나 임상적 중요성을 보장하지는 않습니다. p < 0.001이라도 효과 크기가 무의미하게 작으면 임상 현장에서는 가치가 없습니다. p값과 효과 크기는 별개의 정보라는 점을 기억하는 것이 중요합니다.

Q. 효과 크기를 어떻게 평가해야 하나요?

효과 크기는 연구 결과를 단위와 맥락으로 읽는 작업입니다. 예를 들어 혈압 평균 감소 12mmHg는 심혈관 위험 감소에 의미 있는 수준이지만, 3mmHg는 그렇지 않습니다. 각 질환별로 축적된 임상 경험에 근거한 기준치(MCID)가 있으며, 논문을 읽을 때 이 기준과 비교해 보는 습관이 중요합니다.

Q. 신뢰 구간이 넓다는 것은 무엇을 의미하나요?

신뢰 구간이 넓다는 것은 연구 결과의 불확실성이 크다는 의미입니다. 표본 크기가 작거나 측정 변동이 컸을 때 발생하며, 진짜 효과 크기가 어느 값일지에 대한 추정이 넓은 범위에 걸쳐 있다는 뜻입니다. 신뢰 구간이 0(효과 없음)을 포함하고 있다면 통계적으로도 유의하지 않으며, 포함하지 않더라도 그 범위의 양 끝단에 따라 임상적 판단이 달라질 수 있습니다.