통계 속 부적편포, 정확히 무엇일까요?
통계학을 공부하다 보면 '부적편포(Negative Binomial Distribution)'라는 용어를 접하게 됩니다. 언뜻 복잡해 보이지만, 부적편포는 특정 사건이 발생하는 횟수를 모델링하는 데 유용하게 사용되는 확률 분포입니다. 쉽게 말해, '어떤 사건이 성공하기까지 발생하는 실패 횟수'를 확률적으로 예측하는 데 쓰이죠. 예를 들어, 불량품이 나올 때까지 검사하는 제품의 개수나, 목표를 달성하기까지 걸리는 시도 횟수 등을 분석할 때 활용될 수 있습니다. 부적편포는 정규분포나 이항분포와는 다른 특징을 가지며, 특히 사건 발생 간격이 일정하지 않은 경우에 더 적합한 모델링을 제공합니다.
부적편포의 기본 개념 이해하기
부적편포는 크게 두 가지 형태, 즉 '성공 횟수'를 기준으로 하거나 '실패 횟수'를 기준으로 정의될 수 있습니다. 일반적으로는 '성공을 r번 할 때까지 발생하는 실패 횟수 X'를 확률변수로 하는 경우를 많이 사용합니다. 이때 각 시행은 독립적이며, 각 시행에서 성공할 확률은 p로 일정하다고 가정합니다. 부적편포의 확률 질량 함수는 다음과 같이 표현됩니다.
P(X=k) = C(k+r-1, k) * (1-p)^k * p^r
여기서 C(n, k)는 이항계수를 나타내며, k는 실패 횟수, r은 성공 횟수를 의미합니다. 이 공식은 'r번의 성공을 얻기 위해 k번의 실패가 발생할 확률'을 계산해 줍니다. 부적편포는 기하분포의 일반화된 형태로 볼 수 있으며, 기하분포는 r=1인 특별한 경우에 해당합니다.
부적편포와 다른 확률 분포의 차이점
부적편포를 이해하기 위해서는 다른 주요 확률 분포와의 차이점을 아는 것이 중요합니다. 가장 자주 비교되는 것은 '이항분포'와 '기하분포'입니다. 이항분포는 '고정된 횟수(n)의 독립적인 시행에서 특정 사건이 발생하는 횟수'를 다룹니다. 반면, 부적편포는 '특정 횟수(r)의 성공을 얻기까지의 실패 횟수'를 다루므로, 시행 횟수가 고정되어 있지 않습니다. 기하분포는 부적편포에서 성공 횟수 r이 1인 경우로, '첫 번째 성공을 얻기까지의 실패 횟수'를 모델링합니다. 따라서 부적편포는 이항분포보다 더 유연하며, 기하분포보다 더 일반적인 상황에 적용될 수 있습니다.