유의확률과 유의수준 5%의 의미, 통계적 가설 검정 총정리

통계학을 공부하다 보면 '유의확률(p-value)'과 '유의수준(significance level)'이라는 용어를 자주 접하게 됩니다. 특히 '유의수준 5%'와 같은 표현은 통계 분석 결과 해석의 핵심적인 부분인데요. 이 두 개념이 정확히 무엇을 의미하는지, 그리고 실제 분석에서 어떻게 활용되는지 예시와 함께 자세히 알아보겠습니다.

가설 검정의 기초: 귀무가설과 대립가설

유의확률과 유의수준을 이해하기 위해서는 먼저 통계적 가설 검정의 기본 틀을 알아야 합니다. 가설 검정은 우리가 세운 가설이 옳은지 그른지를 통계적으로 판단하는 과정입니다. 이때 두 가지 가설을 설정하는데, 하나는 '효과가 없다', '차이가 없다'와 같이 우리가 입증하고자 하는 바와 반대되는 주장인 **귀무가설(Null Hypothesis, H₀)**이고, 다른 하나는 우리가 입증하고자 하는 주장인 **대립가설(Alternative Hypothesis, H₁)**입니다.

예를 들어, 새로운 비료가 작물 성장에 효과가 있는지 알아보고 싶다면, 귀무가설은 '새로운 비료는 작물 성장에 아무런 효과가 없다'가 되고, 대립가설은 '새로운 비료는 작물 성장에 효과가 있다'가 됩니다. 우리는 표본 데이터를 바탕으로 귀무가설을 기각할지, 아니면 기각하지 못할지를 결정하게 됩니다.

유의확률(p-value)이란 무엇인가?

유의확률, 즉 p-value는 '귀무가설이 실제로 참이라고 가정했을 때, 현재 관찰된 표본 결과 또는 그보다 더 극단적인 결과가 나타날 확률'을 의미합니다. 쉽게 말해, **'만약 아무런 효과가 없다면(귀무가설 참), 지금 우리가 얻은 이 결과가 우연히 발생할 확률은 얼마나 될까?'**를 나타내는 값입니다.

p-value가 작을수록 현재의 결과가 우연히 발생했을 가능성이 낮다는 뜻이며, 이는 귀무가설을 기각하고 대립가설을 채택할 강력한 증거가 됩니다. 반대로 p-value가 크면 현재 결과가 우연히 발생했을 가능성이 높다고 판단하여 귀무가설을 기각하지 못합니다.

유의수준(significance level, α)의 역할

유의수준은 우리가 귀무가설을 기각하기 위한 '기준'이 되는 확률입니다. 흔히 '유의수준 5%'라고 할 때의 5%가 바로 이 유의수준(α)을 의미합니다. 즉, α = 0.05라는 뜻입니다.

유의수준은 우리가 얼마나 엄격하게 귀무가설을 판단할 것인지를 정하는 값입니다. 일반적으로 0.05(5%), 0.01(1%), 0.1(10%) 등을 사용하며, 0.05가 가장 보편적으로 사용됩니다.

유의수준은 다음과 같이 활용됩니다. 우리가 계산한 p-value와 미리 정해둔 유의수준(α)을 비교하여 귀무가설 기각 여부를 결정합니다.

p-value ≤ α : 귀무가설 기각 (결과가 통계적으로 유의미하다)
p-value > α : 귀무가설 기각 실패 (결과가 통계적으로 유의미하지 않다)

'유의수준 5%'의 구체적인 의미

'유의수준 5%'라는 것은, **'만약 귀무가설이 참이라면, 100번 중 5번 정도는 우연히 통계적으로 유의미하다는 잘못된 결론을 내릴 수 있다'**는 것을 미리 허용하는 기준입니다. 즉, 5%의 확률로 제1종 오류(Type I error, 실제로는 효과가 없는데 효과가 있다고 잘못 판단하는 오류)를 범할 가능성을 감수하겠다는 의미입니다.

따라서 p-value가 0.05보다 작거나 같으면, 우리는 '우연이라고 보기에는 확률이 매우 낮다'고 판단하여 귀무가설을 기각하고 대립가설을 받아들이게 됩니다. 이는 해당 결과가 통계적으로 '유의하다(statistically significant)'고 말하는 근거가 됩니다.

실제 예시: 신약의 효과 검증

어떤 제약회사에서 새로운 감기약의 효과를 검증한다고 가정해 봅시다. 이 약이 기존 감기 증상 완화에 효과가 있는지 알아보기 위해 임상시험을 진행했습니다. 이 경우:

귀무가설(H₀): 새로운 감기약은 기존 약과 비교하여 증상 완화에 아무런 차이가 없다.
대립가설(H₁): 새로운 감기약은 기존 약보다 증상 완화에 더 효과가 있다.

임상시험 결과, 새로운 감기약을 복용한 그룹의 평균 증상 완화 기간이 기존 약을 복용한 그룹보다 짧았다고 합시다. 이제 이 차이가 통계적으로 유의미한지 판단해야 합니다. 통계 분석을 통해 p-value를 계산했더니, p-value = 0.03이 나왔습니다. 만약 우리가 유의수준을 α = 0.05로 설정했다면:

p-value (0.03) ≤ 유의수준 (0.05) 이므로, 귀무가설을 기각합니다.

이것은 '새로운 감기약이 기존 약보다 증상 완화에 통계적으로 유의미하게 더 효과가 있다'고 결론 내릴 수 있다는 의미입니다. 즉, 관찰된 증상 완화 기간의 차이가 단순히 우연히 발생했을 확률이 5% 이하로 매우 낮다는 것을 의미합니다.

결론: p-value와 유의수준의 관계

유의확률(p-value)은 귀무가설 하에서 관찰된 결과가 나올 확률이며, 유의수준(α)은 귀무가설을 기각하기 위한 허용 가능한 최대 확률(기준)입니다. 이 둘을 비교하여 통계적 유의성을 판단합니다. p-value가 유의수준보다 작거나 같으면 귀무가설을 기각하고, 결과가 통계적으로 유의미하다고 판단하는 것입니다. '유의수준 5%'는 5%의 제1종 오류를 범할 가능성을 감수하겠다는 약속이며, 이는 과학적 연구에서 합리적인 판단 기준이 됩니다.