디리클레 분포란 무엇이며 어디에 사용될까?

디리클레 분포는 다항 분포의 사전 분포로 사용되는 연속 확률 분포입니다. 각 범주에 속할 확률 벡터에 대한 확률을 정의하며, 주로 베이즈 통계학에서 범주형 데이터의 불확실성을 모델링하는 데 활용됩니다. 예를 들어, 설문 조사 결과나 텍스트 문서의 단어 빈도 등을 분석할 때 유용하게 사용될 수 있습니다.

디리클레 분포의 기본 개념

디리클레 분포는 $K$개의 범주가 있을 때, 각 범주에 속할 확률을 나타내는 벡터 $\mathbf{p} = (p_1, p_2, \dots, p_K)$에 대한 확률 분포입니다. 여기서 각 $p_i$는 0과 1 사이의 값을 가지며, 모든 $p_i$의 합은 1이 되어야 합니다 ($\sum_{i=1}^K p_i = 1$). 디리클레 분포는 이러한 확률 벡터 $\mathbf{p}$가 어떤 값을 가질 확률이 높은지를 나타냅니다. 디리클레 분포는 두 개의 모수 $\alpha = (\alpha_1, \alpha_2, \dots, \alpha_K)$를 가지는데, 여기서 각 $\alpha_i > 0$ 입니다. 이 모수들은 각 범주에 대한 사전 믿음을 나타내며, $\alpha_i$ 값이 클수록 해당 범주에 속할 확률이 높다고 예상하는 것입니다.

디리클레 분포의 활용 예시

텍스트 분석 (토픽 모델링): 문서가 여러 토픽으로 구성될 때, 각 문서가 어떤 토픽에 속할 확률을 디리클레 분포로 모델링할 수 있습니다. 예를 들어, LDA(Latent Dirichlet Allocation)와 같은 토픽 모델링 기법에서 문서-토픽 분포를 디리클레 분포로 가정합니다.
베이즈 추론: 범주형 데이터의 비율을 추정할 때, 사전 분포로 디리클레 분포를 사용하면 추정 과정이 간결해지고 안정적인 결과를 얻을 수 있습니다. 다항 분포의 사전 분포로 디리클레 분포를 사용하면 사후 분포 역시 디리클레 분포가 되어 계산이 용이합니다.
기계 학습: 추천 시스템이나 분류 문제에서 사용자의 선호도나 항목의 속성을 확률 벡터로 나타낼 때 디리클레 분포를 활용할 수 있습니다.

디리클레 분포의 특징

디리클레 분포는 다음과 같은 특징을 가집니다.

대칭성: 모든 $\alpha_i$가 동일하다면 ($\alpha_1 = \alpha_2 = \dots = \alpha_K$), 디리클레 분포는 대칭적입니다. 즉, 모든 확률 벡터 $(p_1, \dots, p_K)$가 동일한 확률 값을 가집니다.
첨예도: 모수 $\sum \alpha_i$의 값이 클수록 분포는 더 뾰족해지며, 이는 확률 벡터가 평균값 근처에 집중될 가능성이 높다는 것을 의미합니다. 반대로 합이 작을수록 분포는 더 넓게 퍼집니다.
평균: 디리클레 분포의 평균은 $E[p_i] = \frac{\alpha_i}{\sum_{j=1}^K \alpha_j}$ 입니다. 이는 각 범주의 기대 확률을 나타냅니다.

디리클레 분포와 다항 분포의 관계

디리클레 분포는 다항 분포의 켤레 사전 분포(conjugate prior)입니다. 이는 디리클레 분포를 다항 분포의 사전 분포로 사용하면, 관측된 데이터를 바탕으로 업데이트된 사후 분포 또한 디리클레 분포의 형태를 유지한다는 것을 의미합니다. 이러한 성질 덕분에 베이즈 통계학에서 계산 효율성이 크게 향상됩니다. 예를 들어, $N$번의 시행으로 얻어진 다항 분포의 결과가 $(n_1, n_2, \dots, n_K)$라면, 사전 분포가 $\text{Dir}(\alpha_1, \dots, \alpha_K)$일 때 사후 분포는 $\text{Dir}(\alpha_1+n_1, \dots, \alpha_K+n_K)$가 됩니다.

결론적으로 디리클레 분포는 여러 범주에 대한 확률을 모델링하는 강력한 도구이며, 특히 베이즈 통계학과 기계 학습 분야에서 그 중요성이 큽니다. 복잡한 데이터의 불확실성을 효과적으로 다루는 데 핵심적인 역할을 수행합니다.