공분산 구하는 방법과 예시, a와 b의 기호 의미

공분산은 두 확률 변수의 선형적인 관계를 나타내는 통계량입니다. 쉽게 말해, 한 변수가 증가할 때 다른 변수가 함께 증가하는지, 감소하는지를 보여주는 지표라고 할 수 있습니다. 공분산 기호는 일반적으로 Cov(X, Y) 또는 σ_XY로 표기하며, 여기서 X와 Y는 각각 두 확률 변수를 의미합니다. 질문해주신 'a, b'는 특정 표본 데이터의 두 변수 값을 나타내는 것으로 이해됩니다.

공분산 계산 방법

표본 공분산을 구하는 공식은 다음과 같습니다.

Cov(a, b) = Σ[(a_i - ā) * (b_i - b̄)] / (n - 1)

여기서 각 기호는 다음과 같은 의미를 가집니다.

a_i, b_i: 각 표본 데이터에서 변수 a와 변수 b의 i번째 값
ā, b̄: 변수 a와 변수 b의 표본 평균
n: 표본 데이터의 총 개수
Σ: 합계를 의미하는 기호

이 공식은 각 데이터 포인트에서 해당 변수의 평균을 뺀 값(편차)들의 곱을 모두 더한 후, 표본의 개수에서 1을 뺀 값으로 나누어 계산합니다.

공분산 값의 의미

공분산 값은 두 변수 간의 관계 방향을 나타냅니다.

양수(+): 두 변수가 같은 방향으로 움직이는 경향이 있음을 의미합니다. 즉, 한 변수가 증가하면 다른 변수도 증가하는 경향을 보입니다. (양의 선형 관계)
음수(-): 두 변수가 반대 방향으로 움직이는 경향이 있음을 의미합니다. 즉, 한 변수가 증가하면 다른 변수는 감소하는 경향을 보입니다. (음의 선형 관계)
0에 가까운 값: 두 변수 간에 뚜렷한 선형적인 관계가 없음을 의미합니다.

공분산 계산 예시

간단한 예시를 통해 공분산을 계산해 보겠습니다. 두 변수 X와 Y에 대한 5개의 표본 데이터가 있다고 가정합니다.

X	Y
2	3
4	5
3	4
5	6
6	7

각 변수의 평균 계산:
- X의 평균 (ā) = (2 + 4 + 3 + 5 + 6) / 5 = 20 / 5 = 4
- Y의 평균 (b̄) = (3 + 5 + 4 + 6 + 7) / 5 = 25 / 5 = 5
각 데이터 포인트에 대한 (X_i - ā) * (Y_i - b̄) 계산:
- (2 - 4) * (3 - 5) = (-2) * (-2) = 4
- (4 - 4) * (5 - 5) = (0) * (0) = 0
- (3 - 4) * (4 - 5) = (-1) * (-1) = 1
- (5 - 4) * (6 - 5) = (1) * (1) = 1
- (6 - 4) * (7 - 5) = (2) * (2) = 4
계산된 값들의 합계: 4 + 0 + 1 + 1 + 4 = 10
공분산 계산:
- n = 5 이므로, n - 1 = 4
- Cov(X, Y) = 10 / 4 = 2.5

이 예시에서 공분산 값은 2.5로 양수이므로, 변수 X와 Y는 함께 증가하는 양의 선형 관계를 가진다고 볼 수 있습니다.

공분산과 상관계수의 차이점

공분산은 두 변수의 관계 방향을 알려주지만, 그 값의 크기는 변수들의 단위에 영향을 받습니다. 따라서 두 변수 간의 관계 강도를 객관적으로 비교하기 어렵습니다. 이러한 단점을 보완하기 위해 상관계수를 사용합니다. 상관계수는 공분산을 각 변수의 표준편차의 곱으로 나누어 표준화한 값으로, 항상 -1에서 +1 사이의 값을 가지며 단위에 영향을 받지 않아 관계의 강도를 더 명확하게 파악할 수 있습니다.