통계 용어 정규성, 등분산, 이분산, 임계치 개념 총정리

통계 분석을 하다 보면 '정규성', '등분산성', '이분산성', '임계치'와 같은 용어들을 자주 접하게 됩니다. 이 용어들은 데이터의 특성을 이해하고 적절한 통계 기법을 선택하는 데 매우 중요합니다. 각 용어가 무엇을 의미하는지, 왜 중요한지, 그리고 실제 분석에서 어떻게 활용되는지 자세히 알아보겠습니다.

정규성 (Normality)

정규성은 데이터가 정규 분포를 따르는지를 나타내는 개념입니다. 정규 분포는 평균, 중앙값, 최빈값이 일치하고 좌우 대칭인 종 모양의 그래프를 그리는 분포입니다. 많은 통계적 가설 검정(예: t-검정, ANOVA)은 데이터가 정규 분포를 따른다는 가정을 기반으로 합니다. 만약 데이터가 정규성을 만족하지 못하면, 이러한 검정 결과의 신뢰도가 떨어질 수 있습니다.

정규성을 확인하는 방법으로는 시각적인 방법(히스토그램, Q-Q plot)과 통계적인 방법(Shapiro-Wilk 검정, Kolmogorov-Smirnov 검정)이 있습니다. 데이터가 정규성을 만족하지 않을 경우, 데이터 변환(로그 변환 등)을 시도하거나 비모수 통계 기법을 사용하는 것을 고려할 수 있습니다.

등분산성 (Homoscedasticity)

등분산성은 서로 다른 집단의 분산(데이터가 평균으로부터 퍼져 있는 정도)이 동일하다는 것을 의미합니다. 예를 들어, 두 개 이상의 그룹에 대한 평균을 비교하는 t-검정이나 ANOVA와 같은 분석에서는 각 그룹의 데이터가 유사한 수준의 분산을 가져야 한다는 가정을 합니다. 만약 그룹 간 분산의 차이가 크다면, 이를 '이분산성(Heteroscedasticity)'이라고 합니다.

등분산성 위반은 특히 표본 크기가 다른 경우에 검정 결과에 영향을 미칠 수 있습니다. 등분산성을 확인하기 위해 Levene 검정이나 Bartlett 검정 등을 사용합니다. 등분산성이 만족되지 않으면, 각 그룹의 분산이 다르다는 것을 고려한 Welch의 t-검정이나 Games-Howell 사후 분석과 같은 방법을 사용할 수 있습니다.

이분산성 (Heteroscedasticity)

이분산성은 앞서 설명한 등분산성의 반대 개념으로, 서로 다른 집단의 분산이 동일하지 않고 차이가 나는 경우를 말합니다. 예를 들어, 특정 치료법을 받은 그룹의 데이터 변동성이 치료를 받지 않은 그룹보다 훨씬 크다면 이분산성이 존재한다고 볼 수 있습니다. 통계 분석에서 이분산성은 특히 주의해야 할 부분입니다. 왜냐하면 이는 분석 결과의 정확성과 해석에 오류를 초래할 수 있기 때문입니다.

이분산성이 확인될 경우, 앞서 언급했듯이 등분산성 가정을 완화한 통계 기법을 사용하거나, 데이터 변환을 통해 분산의 차이를 줄이는 방법을 시도할 수 있습니다. 통계 소프트웨어는 이러한 상황에 대처할 수 있는 다양한 옵션을 제공합니다.

임계치 (Threshold / Cut-off Value)

임계치는 어떤 현상이 발생하거나 특정 상태로 분류되기 위한 최소 또는 최대 기준값을 의미합니다. 통계에서는 다양한 맥락에서 사용될 수 있습니다.

가설 검정에서의 임계치 (Critical Value): 가설 검정에서 귀무가설을 기각할지 채택할지를 결정하는 기준이 되는 값입니다. 계산된 검정 통계량이 이 임계치보다 크거나 작으면(검정 방향에 따라) 귀무가설을 기각하게 됩니다. 이는 유의수준(alpha)과 관련이 깊습니다.
분류 모델에서의 임계치: 로지스틱 회귀 분석과 같은 분류 모델에서, 특정 클래스로 분류될 확률의 기준이 되는 값입니다. 예를 들어, 어떤 질병 발병 확률이 0.5(50%) 이상이면 발병으로, 미만이면 비발병으로 분류하는 경우, 0.5가 임계치가 됩니다. 이 임계치는 분석 목적에 따라 조정될 수 있습니다.
의사결정에서의 임계치: 특정 기준을 넘어야만 어떤 조치를 취하거나 결론을 내릴 수 있는 경우에 사용됩니다. 예를 들어, 어떤 제품의 불량률이 5%를 넘으면 해당 생산 라인을 중단하는 경우, 5%가 임계치가 됩니다.

이 네 가지 용어는 통계 분석의 기본을 이루는 중요한 개념들입니다. 데이터의 특성을 정확히 파악하고, 올바른 통계 기법을 선택하며, 분석 결과를 신뢰성 있게 해석하기 위해 반드시 숙지해야 할 내용입니다.