우도함수와 최대우도추정법, 개념과 원리 완벽 정리

우도함수, 최대우도추정법: 통계적 추정의 핵심 원리

통계학에서 '우도함수(Likelihood Function)'와 '최대우도추정법(Maximum Likelihood Estimation, MLE)'은 데이터가 주어졌을 때, 해당 데이터를 가장 잘 설명하는 모수(parameter)를 찾는 강력한 도구입니다. 얼핏 복잡해 보일 수 있지만, 그 핵심 원리를 이해하면 데이터 분석의 깊이를 더할 수 있습니다. 이 글에서는 우도함수의 개념부터 최대우도추정법의 작동 방식까지, 쉽고 명확하게 설명해 드리겠습니다.

우도함수란 무엇인가?

우도함수는 확률밀도함수(Probability Density Function, PDF) 또는 확률질량함수(Probability Mass Function, PMF)에서 모수를 변수로 간주하고, 관측된 데이터가 주어졌을 때 각 모수 값에 대한 '가능성'을 나타내는 함수입니다. 쉽게 말해, '이런 데이터가 관측되었는데, 각 모수 값 중에서 어떤 값이 이 데이터를 가장 잘 만들어냈을까?'를 따져보는 함수라고 할 수 있습니다.

예를 들어, 동전을 던져 앞면이 3번, 뒷면이 2번 나왔다고 가정해 봅시다. 이 동전의 앞면이 나올 확률을 'p'라고 할 때, 이 결과(앞면 3번, 뒷면 2번)를 얻을 확률은 다음과 같이 계산할 수 있습니다. (이항 분포를 가정)

P(데이터 | p) = C(5, 3) * p^3 * (1-p)^2

여기서 C(5, 3)은 5번 중 3번 앞면이 나오는 경우의 수를 의미합니다. 우리가 관심 있는 것은 'p' 값이므로, 이 확률을 'p'에 대한 함수로 보면 '우도함수'가 됩니다.

L(p | 데이터) = C(5, 3) * p^3 * (1-p)^2

이 우도함수는 p=0.1일 때보다 p=0.6일 때 더 높은 값을 가질 것입니다. 즉, p=0.6일 때 주어진 데이터(앞면 3번, 뒷면 2번)가 관측될 가능성이 더 높다는 것을 의미합니다.

최대우도추정법: 가장 가능성 높은 모수 찾기

최대우도추정법은 앞서 설명한 우도함수를 최대로 만드는 모수 값을 찾는 방법입니다. 즉, '관측된 데이터를 가장 잘 설명하는 모수 값'을 추정하는 것이죠. 위에서 예로 든 동전 던지기에서 L(p | 데이터)를 최대로 만드는 p 값을 찾는 것이 최대우도추정법의 목표입니다.

이때 우도함수 자체를 최적화하는 것보다, 우도함수의 자연로그를 취한 '로그 우도함수(Log-Likelihood Function)'를 최적화하는 것이 계산상 더 편리합니다. 로그 함수는 단조 증가 함수이므로, 로그 우도함수를 최대로 만드는 모수 값은 우도함수를 최대로 만드는 모수 값과 동일합니다.

log L(p | 데이터) = log(C(5, 3)) + 3log(p) + 2log(1-p)

이 로그 우도함수를 p에 대해 미분하여 0이 되는 값을 찾으면, p에 대한 최대우도추정량을 얻을 수 있습니다. (계산 결과 p=0.6이 나옵니다.)

최대우도추정법의 장점

최대우도추정법은 여러 통계적 추정 방법 중에서 다음과 같은 장점을 가집니다.

일치성(Consistency): 표본의 크기가 커질수록 참 모수에 수렴합니다.
점근적 효율성(Asymptotic Efficiency): 표본 크기가 충분히 클 때, 가장 낮은 분산을 가지는 추정량을 제공합니다.
점근적 정규성(Asymptotic Normality): 표본 크기가 충분히 클 때, 추정량의 분포가 정규분포를 따릅니다. 이는 신뢰구간을 설정하거나 가설검정을 수행하는 데 유용합니다.
변환 불변성(Invariance): 만약 θ의 최대우도추정량이 θ̂라면, g(θ)의 최대우도추정량은 g(θ̂)입니다. 즉, 모수에 대한 함수로 변환해도 최대우도추정법이 그대로 적용됩니다.

최대우도추정법의 단점

장점에도 불구하고 최대우도추정법은 다음과 같은 단점을 가질 수 있습니다.

계산의 복잡성: 복잡한 모형이나 데이터의 경우, 우도함수를 최대화하는 과정이 해석적으로 풀리지 않고 수치적 최적화 기법을 필요로 할 수 있습니다.
편향(Bias): 특히 표본 크기가 작을 때는 최대우도추정량이 편향을 가질 수 있습니다. (예: 분산의 최대우도추정량은 실제 분산보다 작게 추정되는 경향이 있습니다.)
존재하지 않을 수 있음: 특정 모형에서는 우도함수가 최대값을 갖지 않거나, 최대값이 모수의 유효 범위 밖에 존재할 수 있습니다.

실제 적용 사례

최대우도추정법은 다양한 분야에서 활용됩니다. 예를 들어:

회귀 분석: 선형 회귀 모델에서 계수(coefficients)를 추정할 때 사용됩니다.
분류 모델: 로지스틱 회귀와 같은 분류 모델에서 확률을 나타내는 모수들을 추정하는 데 핵심적인 역할을 합니다.
시계열 분석: ARIMA 모델 등에서 모델의 파라미터를 추정할 때 사용됩니다.
머신러닝: 신경망의 손실 함수를 최소화하는 과정 역시 최대우도추정법과 밀접한 관련이 있습니다.

결론

우도함수와 최대우도추정법은 주어진 데이터를 가장 잘 설명하는 모수를 찾는 통계적 추정의 근간을 이룹니다. 복잡해 보일 수 있지만, '가능성'이라는 직관적인 개념을 바탕으로 하며, 다양한 통계 모형과 실제 데이터 분석에서 필수적으로 사용되는 강력한 방법론입니다. 이 글을 통해 우도함수와 최대우도추정법의 기본 개념과 원리를 명확히 이해하셨기를 바랍니다.