이산형 변수와 연속형 변수의 모든 것: 정의부터 예시까지

링크가 복사되었습니다
조회 1

통계학의 세계에서 변수는 데이터를 이해하고 분석하는 데 필수적인 요소입니다. 변수는 크게 두 가지 종류로 나눌 수 있는데, 바로 '이산형 변수'와 '연속형 변수'입니다. 이 두 변수의 차이를 명확히 이해하는 것은 데이터 분석의 기초를 다지는 데 매우 중요합니다. 이번 글에서는 이산형 변수와 연속형 변수가 무엇인지, 각각의 특징은 무엇이며, 어떤 예시들이 있는지 자세히 알아보겠습니다.

이산형 변수란 무엇인가?

이산형 변수(Discrete Variable)는 셀 수 있는 값들로만 이루어진 변수를 의미합니다. 즉, 변수가 가질 수 있는 값들 사이에 '간격'이 존재하며, 그 값들은 명확하게 구분됩니다. 예를 들어, 사람의 수, 자동차의 대수, 시험의 정답 개수 등은 이산형 변수에 해당합니다. 이 값들은 정수 형태를 띠는 경우가 많지만, 반드시 정수일 필요는 없습니다. 중요한 것은 값이 '띄엄띄엄' 나타나고, 그 사이의 값은 가질 수 없다는 점입니다. 예를 들어, 방 2개와 방 3개 사이의 '방 2.5개'라는 개념은 존재하지 않습니다.

이산형 변수의 특징 및 예시

이산형 변수의 가장 큰 특징은 '셀 수 있다'는 것입니다. 따라서 이산형 변수는 확률 질량 함수(Probability Mass Function, PMF)를 사용하여 확률 분포를 나타냅니다. 이산형 변수의 대표적인 예시는 다음과 같습니다.

  • 주사위를 던졌을 때 나오는 눈의 수: 1, 2, 3, 4, 5, 6의 값만 가질 수 있으며, 2.5와 같은 값은 나올 수 없습니다.
  • 동전을 던졌을 때 앞면이 나오는 횟수: 0번, 1번, 2번 등 셀 수 있는 횟수로 나타납니다.
  • 어떤 도시의 인구 수: 100만 명, 101만 명 등 명확하게 셀 수 있는 단위로 표현됩니다.
  • 하루 동안 발생하는 고객 문의 건수: 0건, 1건, 2건 등 정수 값으로 나타납니다.

이처럼 이산형 변수는 명확하게 구분되는 값들을 가지며, 그 값들 사이에 임의의 값을 가질 수 없습니다.

연속형 변수란 무엇인가?

연속형 변수(Continuous Variable)는 특정 범위 내에서 어떤 값이든 가질 수 있는 변수를 의미합니다. 이산형 변수와 달리, 연속형 변수가 가질 수 있는 값들 사이에는 '무한히 많은' 값이 존재합니다. 마치 직선 위의 점처럼, 두 점 사이에도 무수히 많은 점이 있는 것과 같습니다. 예를 들어, 사람의 키, 몸무게, 온도, 시간 등은 연속형 변수에 해당합니다. 이 값들은 소수점을 포함하여 매우 세밀하게 측정될 수 있습니다.

연속형 변수의 특징 및 예시

연속형 변수의 핵심은 '측정 가능하다'는 것입니다. 연속형 변수는 확률 밀도 함수(Probability Density Function, PDF)를 사용하여 확률 분포를 나타냅니다. 특정 값 하나를 가질 확률은 0에 수렴하며, 특정 구간 내의 확률을 계산합니다. 연속형 변수의 대표적인 예시는 다음과 같습니다.

  • 사람의 키: 170cm, 170.5cm, 170.53cm 등 측정 도구의 정밀도에 따라 무한히 세밀하게 표현될 수 있습니다.
  • 자동차의 속도: 시속 80km, 시속 80.1km, 시속 80.123km 등 실시간으로 변하는 값을 가집니다.
  • 어떤 지역의 온도: 25.5도, 25.51도 등 소수점 이하의 정밀한 값으로 측정됩니다.
  • 제품의 무게: 1kg, 1.001kg, 1.0015kg 등 정밀한 측정값을 가집니다.

연속형 변수는 측정의 정밀도에 따라 값이 달라질 수 있으며, 이론적으로는 무한히 많은 값을 가질 수 있습니다.

이산형 변수와 연속형 변수의 차이점

가장 근본적인 차이점은 '셀 수 있는지' 또는 '측정할 수 있는지'입니다. 이산형 변수는 셀 수 있는 값들로 구성되며 명확하게 구분되는 반면, 연속형 변수는 특정 범위 내에서 어떤 값이든 가질 수 있으며 무한히 세밀하게 측정될 수 있습니다. 또한, 확률을 다룰 때 이산형 변수는 확률 질량 함수를, 연속형 변수는 확률 밀도 함수를 사용한다는 점도 중요한 차이점입니다.

데이터를 분석할 때 변수의 종류를 정확히 파악하는 것은 매우 중요합니다. 어떤 통계 기법을 사용해야 할지, 데이터를 어떻게 시각화해야 할지 등을 결정하는 데 변수의 특성이 큰 영향을 미치기 때문입니다. 예를 들어, 이산형 변수는 막대그래프나 파이 차트로 시각화하기 용이하며, 연속형 변수는 히스토그램이나 상자 그림 등으로 표현하는 것이 일반적입니다.

결론

이산형 변수와 연속형 변수는 데이터의 본질을 이해하는 두 가지 핵심 축입니다. 이산형 변수는 셀 수 있는 명확히 구분되는 값들을 가지며, 연속형 변수는 특정 범위 내에서 무한히 세밀하게 측정될 수 있는 값들을 가집니다. 이 두 개념을 명확히 구분하고 이해함으로써, 우리는 데이터를 더욱 정확하게 분석하고 의미 있는 통찰을 얻을 수 있을 것입니다. 앞으로 데이터를 접할 때, 이 변수들이 이산형인지 연속형인지 구분하는 습관을 들이는 것이 중요합니다.

이 글이 도움이 되셨나요?← 홈으로