본문으로 건너뛰기

기하평균의 의미와 수학적 감각 익히기

· 약 6분
Nam Young Kim
Data Fullstack Engineer

산술평균과 기하평균의 차이를 직관적으로 이해하고, 왜 Bhattacharyya Coefficient에서 기하평균을 사용하는지 알아봅니다

1️⃣ "각 점에서 두 확률의 기하평균을 더한 값" 상세 설명

단계별 이해

이산 분포 예시:

두 확률 분포가 있다고 가정:

    x₁   x₂   x₃   x₄   x₅
p: 0.3 0.2 0.1 0.2 0.2
q: 0.1 0.3 0.2 0.3 0.1

각 점에서의 계산:

x₁: √(0.3 × 0.1) = √0.03 = 0.173
x₂: √(0.2 × 0.3) = √0.06 = 0.245
x₃: √(0.1 × 0.2) = √0.02 = 0.141
x₄: √(0.2 × 0.3) = √0.06 = 0.245
x₅: √(0.2 × 0.1) = √0.02 = 0.141

합산 (BC):

BC = 0.173 + 0.245 + 0.141 + 0.245 + 0.141 = 0.945

시각적 이해:

각 점에서:
p(x) ━━━━━━━━━ (높이)
q(x) ━━━━ (높이)

기하평균 ━━━━━ (두 높이의 "균형잡힌" 중간)

이걸 모든 점에서 더함

2️⃣ 산술평균 vs 기하평균: 수학적 감각

정의 비교

산술평균 (Arithmetic Mean):

AM=a+b2AM = \frac{a + b}{2}

기하평균 (Geometric Mean):

GM=abGM = \sqrt{a \cdot b}

핵심 차이의 감각

🎯 감각 1: 곱셈적 vs 덧셈적 관계

산술평균: "더하기" 세계
→ 차이(difference)를 다룸
→ 절대적 거리

기하평균: "곱하기" 세계
→ 비율(ratio)을 다룸
→ 상대적 거리

구체적 예시:

Case 1: a=2, b=8

산술평균: (2+8)/2 = 5
기하평균: √(2×8) = √16 = 4

2 ━━━━━━━━━━━━━━━━ 8
AM=5 (중간 위치)
GM=4 (비율적 중간)

비율 관점: 2→4는 2배, 4→8도 2배 (기하평균이 비율적으로 중간!)

Case 2: a=1, b=100

산술평균: (1+100)/2 = 50.5
기하평균: √(1×100) = 10

1 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100
GM=10 AM=50.5

비율 관점: 1→10은 10배, 10→100도 10배

🎯 감각 2: 극단값에 대한 민감도

산술평균:

예시: 1, 1, 1, 1, 100
산술평균 = (1+1+1+1+100)/5 = 20.8

→ 극단값(100)에 크게 영향받음
→ "한쪽으로 끌려감"

기하평균:

예시: 1, 1, 1, 1, 100
기하평균 = ⁵√(1×1×1×1×100) = ⁵√100 = 2.51

→ 극단값에 덜 민감
→ "균형잡힌" 값

왜 이런 차이가?

  • 곱셈은 0에 가까운 값이 하나라도 있으면 전체가 작아짐
  • 양쪽 모두 "기여"해야 큰 값이 나옴

🎯 감각 3: 대칭성과 불변성

산술평균의 스케일 변환:

a=2, b=8 → AM=5

2배 확대: a=4, b=16 → AM=10 (2배)
✓ 선형 변환에 불변

기하평균의 비율 불변성:

a=2, b=8 → GM=4, 비율=2:8=1:4

2배 확대: a=4, b=16 → GM=8, 비율=4:16=1:4
✓ 비율 구조 보존

3️⃣ Bhattacharyya Coefficient에서 기하평균을 사용하는 이유

🔍 왜 산술평균이 아닌 기하평균인가?

만약 산술평균을 사용한다면:

BCarithmetic=p(x)+q(x)2BC_{arithmetic} = \sum \frac{p(x) + q(x)}{2}
문제 1: 확률의 합이 됨
p와 q가 각각 합이 1이므로
→ BC_arithmetic = (1 + 1)/2 = 1 (항상!)
→ 아무 정보도 제공 안 함 ❌

기하평균을 사용하면:

BCgeometric=p(x)q(x)BC_{geometric} = \sum \sqrt{p(x) \cdot q(x)}
장점 1: 양쪽이 모두 높아야 큰 값
p(x) = 0.8, q(x) = 0.8 → √(0.64) = 0.8 ✓
p(x) = 0.8, q(x) = 0.1 → √(0.08) = 0.28 ✓
p(x) = 0.0, q(x) = 0.8 → √(0.00) = 0.0 ✓

→ 실제 "겹침"을 측정!

📊 시각적 비교

두 분포의 특정 점에서:

p(x) = 0.6 ━━━━━━━━━━━━
q(x) = 0.2 ━━━━

산술평균: (0.6+0.2)/2 = 0.4
→ 한쪽이 높으면 높게 평가

기하평균: √(0.6×0.2) = √0.12 = 0.346
→ 양쪽이 모두 높아야 높게 평가
→ "진짜 겹침"만 카운트

극단적 경우:

Case 1: p=1.0, q=0.0
산술평균: 0.5 (겹침이 있는 것처럼 보임)
기하평균: 0.0 (진실: 겹침 없음) ✓

Case 2: p=0.5, q=0.5
산술평균: 0.5
기하평균: 0.5 (동일)

Case 3: p=0.9, q=0.1
산술평균: 0.5 (Case 2와 같음)
기하평균: 0.3 (더 적은 겹침으로 평가) ✓

4️⃣ 수학적 감각을 키우는 방법

💡 감각 1: 스케일에 따른 감각

덧셈 세계 (산술평균):
"절대적 차이"를 다룰 때
→ 온도 차이, 거리 차이
→ 100-50 = 200-150

곱셈 세계 (기하평균):
"상대적 비율"을 다룰 때
→ 성장률, 수익률, 확률
→ 2→4는 2배, 100→200도 2배

실생활 예시:

은행 이자 계산 (기하평균이 맞음):

1년차: 10% 수익
2년차: 20% 수익

잘못된 계산 (산술): (10+20)/2 = 15%
→ 100 → 115 → 132.25 ❌

올바른 계산 (기하): √(1.1 × 1.2) - 1 = 14.89%
→ 100 → 110 → 132 ✓

💡 감각 2: 대칭성과 균형

산술평균:
1과 9의 중간 = 5
→ 수직선상 중간점

기하평균:
1과 9의 중간 = 3
→ 비율적 중간점
1×3 = 3
3×3 = 9
(같은 비율로 증가)

시각적 느낌:

선형 스케일 (산술평균):
|----|----|----|----|
1 3 5 7 9
^중간은 5

로그 스케일 (기하평균):
|-------|-------|
1 3 9
^중간은 3

💡 감각 3: 곱의 제약

기하평균의 핵심 성질:

√(a × b)가 크려면:
→ a와 b 둘 다 커야 함
→ 한쪽이 0이면 무조건 0
→ "균형"이 중요

이것이 바로 "겹침" 측정에 완벽한 이유!

확률 분포 예시:

위치 x₁에서:
p(x₁) = 0.001 (거의 없음)
q(x₁) = 0.999 (거의 확실)

산술평균: 0.5 → "중간 정도 겹침"처럼 보임
기하평균: 0.03 → "거의 안 겹침"이 맞음!

→ 한쪽이라도 낮으면 겹침으로 안 쳐줌

5️⃣ 실전 맥락 이해

🎮 게임 데이터 분석 맥락

시나리오: 플레이 시간 분석

정상 유저의 1일 플레이 시간 분포:
8시간 구간: p = 0.01
10시간 구간: q = 0.50

기하평균: √(0.01 × 0.50) = 0.07
→ "8시간 구간에선 거의 안 겹침"

vs 만약 산술평균:
(0.01 + 0.50)/2 = 0.255
→ "25%나 겹치는 것처럼 오해"

왜 이게 중요한가:

  • 어뷰저 탐지 모델의 분리 능력 평가
  • BC가 작다 = 두 그룹이 잘 구별됨 = 좋은 feature

📈 데이터 분석 실무 팁

언제 산술평균?

✓ 평균 매출 (합산 개념)
✓ 평균 온도
✓ 평균 점수
→ "더하기" 관점

언제 기하평균?

✓ 평균 성장률
✓ 확률의 결합
✓ 비율의 평균
✓ 분포의 겹침 (BC!)
→ "곱하기" 관점

6️⃣ 연습 문제로 감각 키우기

문제 1: 비율적 중간점

두 숫자 4와 16
- 산술평균: 10
- 기하평균: 8

질문: 왜 기하평균이 더 작은가?
힌트: 4→8은 2배, 8→16도 2배

해설:

  • 산술평균 10은 절대적 거리의 중간
  • 기하평균 8은 비율적 거리의 중간
  • 4×16=64=8\sqrt{4 \times 16} = \sqrt{64} = 8

문제 2: 확률 분포의 겹침

두 확률 p=0.9, q=0.1
- 산술평균으로 "겹침": 0.5
- 기하평균으로 "겹침": 0.3

질문: 어느 것이 실제 겹침을 더 잘 표현하는가?

해설:

  • 한쪽은 90%, 다른 쪽은 10%
  • 진짜 "둘 다 일어나는" 정도는 낮음
  • 기하평균 0.3이 더 정확한 겹침 측정

문제 3: 실전 Feature 평가

정상 유저 vs 어뷰저
특정 행동의 발생 확률:
- 정상: 0.8
- 어뷰저: 0.2

이 특징은 두 그룹을 잘 구별하는가?
BC 기여도 = √(0.8 × 0.2) = 0.4
→ 중간 정도 겹침
→ 이 특징만으론 부족, 다른 특징 필요

해설:

  • BC가 0에 가까울수록 구별이 잘 됨
  • 0.4는 여전히 상당한 겹침
  • 추가 feature를 찾아 조합 필요

💡 핵심 요약

산술평균의 세계

  • 덧셈, 절대값, 거리
  • "A와 B를 합쳐서 나누기"
  • 극단값에 민감
  • 사용 예: 평균 점수, 평균 온도, 평균 거리

기하평균의 세계

  • 곱셈, 비율, 스케일
  • "A와 B의 균형점"
  • 양쪽 모두 기여해야 함
  • 사용 예: 성장률, 수익률, 확률 겹침

BC에서 기하평균을 쓰는 이유

  1. 진짜 겹침만 측정

    • 한쪽만 높으면 겹침 아님
    • 양쪽 모두 높아야 높은 값
  2. 대칭성 보장

    • p와 q 순서 바꿔도 같음
    • pq=qp\sqrt{p \cdot q} = \sqrt{q \cdot p}
  3. 확률의 특성 반영

    • 독립 사건의 결합 확률 = 곱
    • 겹침 = 두 분포가 동시에 높은 정도

관련 포스트

참고 자료