표본 상관계수 구하는 공식과 계산 방법 총정리

표본 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 측정하는 통계적 지표입니다. 특히 표본 데이터를 사용하여 모집단의 상관관계를 추정할 때 사용되며, 'r'로 표기됩니다. 이 값은 -1에서 +1 사이의 값을 가지며, +1에 가까울수록 강한 양의 선형 관계, -1에 가까울수록 강한 음의 선형 관계, 0에 가까울수록 선형 관계가 없음을 의미합니다. 표본 상관계수를 구하는 공식은 다음과 같습니다.

표본 상관계수 공식 (r)

r = Σ[(xi - x̄)(yi - ȳ)] / √[Σ(xi - x̄)² * Σ(yi - ȳ)²]

여기서,

xi: 첫 번째 변수의 i번째 관측값
x̄: 첫 번째 변수의 표본 평균
yi: 두 번째 변수의 i번째 관측값
ȳ: 두 번째 변수의 표본 평균
Σ: 합계

공식의 구성 요소 이해하기

공식은 분자와 분모로 구성됩니다. 분자인 Σ[(xi - x̄)(yi - ȳ)]는 두 변수의 편차 곱의 합을 의미합니다. 각 데이터 포인트에 대해 첫 번째 변수의 평균과의 편차와 두 번째 변수의 평균과의 편차를 곱한 후, 이 값들을 모두 더합니다. 이 값이 양수이면 두 변수가 같은 방향으로 평균에서 벗어나는 경향이 있음을 나타내고, 음수이면 반대 방향으로 벗어나는 경향이 있음을 나타냅니다.

분모는 각 변수의 편차 제곱합의 곱에 대한 제곱근입니다. Σ(xi - x̄)²는 첫 번째 변수의 편차 제곱합으로, 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 지표입니다. 마찬가지로 Σ(yi - ȳ)²는 두 번째 변수의 편차 제곱합입니다. 이 두 값의 곱에 제곱근을 취함으로써, 각 변수의 변동성을 고려한 정규화된 척도를 얻게 됩니다.

표본 상관계수 계산 단계

데이터 준비: 분석할 두 변수(X, Y)에 대한 표본 데이터를 수집합니다.
평균 계산: 각 변수(X, Y)의 표본 평균(x̄, ȳ)을 계산합니다.
편차 계산: 각 데이터 포인트에 대해 해당 변수의 평균으로부터의 편차(xi - x̄, yi - ȳ)를 계산합니다.
편차 곱의 합 계산: 각 데이터 쌍에 대해 편차를 곱한 후( (xi - x̄)(yi - ȳ) ), 이 값들을 모두 더합니다 (분자 계산).
편차 제곱합 계산: 각 변수에 대해 편차를 제곱한 후( (xi - x̄)², (yi - ȳ)² ), 각 변수별로 합계를 구합니다 (분모 계산의 일부).
분모 계산: 두 변수의 편차 제곱합을 곱한 후, 그 결과의 제곱근을 계산합니다.
상관계수 계산: 분자를 분모로 나누어 표본 상관계수(r)를 계산합니다.

예시를 통한 이해

간단한 예시를 통해 계산 과정을 살펴보겠습니다. 두 변수 X와 Y에 대한 다음 데이터를 가정해 봅시다.

X: [1, 2, 3, 4, 5] Y: [2, 4, 5, 4, 5]

평균: x̄ = (1+2+3+4+5)/5 = 3, ȳ = (2+4+5+4+5)/5 = 3.6
편차: X 편차: [-2, -1, 0, 1, 2] Y 편차: [-1.6, 0.4, 1.4, 0.4, 1.4]
편차 곱의 합: (-2*-1.6) + (-10.4) + (01.4) + (10.4) + (21.4) = 3.2 - 0.4 + 0 + 0.4 + 2.8 = 6
편차 제곱합: X: (-2)²+(-1)²+0²+1²+2² = 4+1+0+1+4 = 10 Y: (-1.6)²+(0.4)²+(1.4)²+(0.4)²+(1.4)² = 2.56 + 0.16 + 1.96 + 0.16 + 1.96 = 6.8
분모: √(10 * 6.8) = √68 ≈ 8.246
상관계수: r = 6 / 8.246 ≈ 0.728

이 결과는 X와 Y 사이에 강한 양의 선형 관계가 있음을 시사합니다. X가 증가함에 따라 Y도 증가하는 경향이 있다는 것을 의미합니다.

주의사항 및 해석

표본 상관계수는 선형 관계만을 측정합니다. 비선형 관계가 존재하더라도 상관계수는 0에 가까울 수 있습니다. 또한, 상관관계는 인과관계를 의미하지 않습니다. 즉, 두 변수 간에 높은 상관관계가 있다고 해서 한 변수가 다른 변수의 원인이라고 단정할 수는 없습니다. 데이터의 이상치(outlier)는 상관계수에 큰 영향을 미칠 수 있으므로, 계산 전 데이터 탐색이 중요합니다. 표본 상관계수는 표본의 특성을 반영하므로, 표본이 모집단을 잘 대표하는지 여부도 해석에 중요한 요소가 됩니다.