Post

[통계] 아주 쉬운 통계학 1

[통계] 아주 쉬운 통계학 1

안녕하세요.

데이터 분석은 정량적이고 객관적으로 사건에 접근하는 가장 유효한 수단 중 하나입니다.
데이터 분석을 통해 재현 가능한 신뢰성 높은 증거를 얻거나 미래의 상태를 예측할 수 있으므로, 데이터 분석은 많은 연구 분야에서 필수로 사용되고 있습니다.

데이터 분석 방법에는 여러 가지가 있으나 대부분이 통계학을 기초로 하고 있습니다.
이번 포스팅에서는 이러한 통계학을 간단히 다룰 예정입니다.

그럼 시작하겠습니다!

데이터 분석의 목적

데이터 분석의 목적은 크게 세 가지로 나눌 수 있습니다.

  1. 데이터를 요약
    • 복잡한 데이터를 간단하게 이해할 수 있도록 핵심 지표나 시각화를 제공.
  2. 대상을 설명
    • 데이터의 구조나 특징을 분석하고, 변수 간 관계를 설명.
  3. 데이터를 예측
    • 과거 데이터를 바탕으로 미래의 값을 예측.

기술통계와 추론통계

1. 기술통계(Descriptive Statistics)

수집한 데이터를 정리하고 요약하는 방법입니다.
데이터의 전체적인 경향이나 분포를 간단히 파악할 때 사용합니다.

  • 예: 평균, 중앙값, 최빈값, 표준편차, 분산, 히스토그램, 상자그림 등.

2. 추론통계(Inferential Statistics)

수집한 표본 데이터로부터 모집단의 특성을 추정하는 방법입니다.

  • 통계적 추론(Statistical Inference): 데이터에서 가정한 확률 모형의 성질을 추정.
  • 가설 검정(Statistical Test): 세운 가설과 실제 데이터의 일치 여부를 평가.

모집단과 표본

모집단(Population)

  • 알고자 하는 대상 전체
  • 모집단에 포함된 요소(element)의 수 → 모집단 크기
  • 유한 모집단 / 무한 모집단

표본(Sample)

  • 모집단에서 일부를 추출한 데이터
  • 표본 추출(Sampling): 모집단에서 표본을 선택하는 과정
  • 표본 크기(Sample Size): 표본에 포함된 요소 개수

모집단 전체를 조사하는 것은 현실적으로 어렵기 때문에, 일부 표본을 통해 모집단의 특성을 추론합니다.


변수(Variable)

데이터 중 같은 성질의 값을 측정한 항목을 변수라고 합니다.
변수의 개수는 ‘차원(Dimension)’이라고 부르기도 합니다.

변수 유형

  • 양적 변수(Quantitative Variable): 숫자로 표현 가능한 변수
    • 이산형(Discrete): 값이 특정한 간격을 두고 존재 (예: 학생 수, 판매 건수)
    • 연속형(Continuous): 값이 연속적으로 존재 (예: 키, 체중)
  • 질적 변수(Qualitative Variable): 숫자가 아닌 범주형 값 (예: 성별, 색상)

통계량(Statistic)

수집한 데이터로 계산한 값.

기술통계량(Descriptive Statistic)

  • 데이터를 요약·기술하는 값

주요 기술통계량

  1. 대푯값: 데이터의 중심을 나타내는 값
    • 평균(mean), 중앙값(median), 최빈값(mode)
  2. 분산(Variance)표준편차(Standard Deviation, S.D.): 데이터의 퍼짐 정도를 나타냄

데이터 분포 시각화 방법

1. 히스토그램(Histogram)

연속형 데이터의 분포를 구간별로 집계

히스토그램 - 월 청구금액(₩) vs 빈도
히스토그램 - 월 청구금액(₩) vs 빈도

2. 상자수염 그림(Box-and-Whisker Plot)

중앙값, 사분위수, 이상치 표현

박스플롯 - 월 청구금액(₩)
박스플롯 - 월 청구금액(₩)

3. 바이올린 플롯(Violin Plot)

박스플롯 + 커널 밀도 추정(KDE) 결합

4. 스웜 플롯(Swarm Plot)

개별 데이터를 점으로 모두 표시

note: 포스팅 하단에 gist 링크를 걸어두었습니다. python을 통해 직접 해보세요!


확률(Probability) 기초

  • 확률변수(Random Variable): 확률에 따라 값이 변하는 변수
  • 실현값(Realization): 확률변수가 실제로 취한 값
  • 확률분포(Probability Distribution): 확률변수와 그 발생 가능성을 나타낸 분포
    • 이산형 확률분포 (Discrete)
    • 연속형 확률분포 → 확률밀도함수(Probability Density Function, PDF)

왜도와 첨도

왜도(Skewness)

분포가 좌우대칭에서 얼마나 치우쳐 있는지

  • 양(+)의 왜도 → 오른쪽 꼬리가 김
  • 음(-)의 왜도 → 왼쪽 꼬리가 김
양(+)의 왜도 예시
양(+)의 왜도 예시

첨도(Kurtosis)

분포의 뾰족한 정도와 꼬리의 두께

  • 첨도가 높으면 → 중앙부가 뾰족하고 꼬리가 두꺼움
  • 첨도가 낮으면 → 중앙부가 완만하고 꼬리가 얇음

조건부 확률(Conditional Probability)

한 사건이 발생했을 때, 다른 사건이 발생할 확률.
예: P(X|Y) = 사건 Y가 일어났을 때 사건 X가 일어날 확률.


확률분포와 파라미터

  • 이론적 확률분포: 수학식으로 표현
  • 파라미터(Parameter, 모수): 분포 형태를 결정하는 값
    • 예: 정규분포 → 평균(μ)과 표준편차(σ)

추론통계와 신뢰구간

현실 세계의 모집단 분포는 복잡하고 불규칙합니다.
→ 이를 수학적으로 다룰 수 있도록 확률분포로 근사하는 과정을 모형화(Modeling)라고 합니다.

표본 추출 방법

  • 무작위추출(Random Sampling): 모집단의 각 요소가 동일한 확률로 선택
    • 단순 무작위 추출(Simple Random Sampling): 난수를 이용
    • 층화 추출(Stratified Sampling): 모집단을 층으로 나누어 각 층에서 무작위 추출

표본 오차와 신뢰구간

  • 목표: 모집단 평균을 알고 싶지만, 전체 조사 불가
  • 표본을 추출하여 평균을 추정 → 표본 오차(Sampling Error) 발생
  • 신뢰구간(Confidence Interval): 모집단 평균이 포함될 것으로 믿는 구간
    • 예: 95% 신뢰구간 = 동일한 실험을 여러 번 반복했을 때, 95%의 경우에 구간이 모평균을 포함

신뢰구간 = 표본평균 ± (임계값 × 표준오차)


큰 수의 법칙(Law of Large Numbers)

표본 크기(n)가 커질수록 표본평균이 모집단 평균에 가까워집니다.


중심극한정리(Central Limit Theorem)

모집단 분포가 어떠하든, 표본 크기가 충분히 크면 표본평균의 분포는 정규분포에 근사합니다.


추정량(Estimator)

  • 모집단의 특성을 추정하는 데 사용하는 통계량
  • 일치추정량(Consistent Estimator): 표본 크기가 커질수록 모수에 가까워짐
  • 비편향추정량(Unbiased Estimator): 평균적으로 모수를 정확히 추정
  • 표본 표준편차는 n-1로 나누어야 편향을 줄일 수 있음 (Bessel’s correction)

참고문헌

  • 아베 마사토. 빅데이터 시대, 올바른 인사이트를 위한 통계 101 × 데이터 분석 = Statistics for Data. 안동현 옮김. 한국: 프리렉, 2022. ISBN 9788965403388.

이번 아주 쉬운 통계학 1 에서는 신뢰 구간의 추정까지 다루었습니다.
다음 포스팅에서는 가설 검정부터 이어서 알아보도록 하겠습니다.

감사합니다 😊

Bonus : python을 통해 통계량 계산 및 시각화를 해볼 수 있습니다. 직접 해보고 싶으시다면 👉 gist

This post is licensed under CC BY 4.0 by the author.