기하평균의 의미와 수학적 감각 익히기
· 약 6분
산술평균과 기하평균의 차이를 직관적으로 이해하고, 왜 Bhattacharyya Coefficient에서 기하평균을 사용하는지 알아봅니다
1️⃣ "각 점에서 두 확률의 기하평균을 더한 값" 상세 설명
단계별 이해
이산 분포 예시:
두 확률 분포가 있다고 가정:
x₁ x₂ x₃ x₄ x₅
p: 0.3 0.2 0.1 0.2 0.2
q: 0.1 0.3 0.2 0.3 0.1
각 점에서의 계산:
x₁: √(0.3 × 0.1) = √0.03 = 0.173
x₂: √(0.2 × 0.3) = √0.06 = 0.245
x₃: √(0.1 × 0.2) = √0.02 = 0.141
x₄: √(0.2 × 0.3) = √0.06 = 0.245
x₅: √(0.2 × 0.1) = √0.02 = 0.141
합산 (BC):
BC = 0.173 + 0.245 + 0.141 + 0.245 + 0.141 = 0.945
시각적 이해:
각 점에서:
p(x) ━━━━━━━━━ (높이)
q(x) ━━━━ (높이)
기하평균 ━━━━━ (두 높이의 "균형잡힌" 중간)
↑
이걸 모든 점에서 더함
2️⃣ 산술평균 vs 기하평균: 수학적 감각
정의 비교
산술평균 (Arithmetic Mean):
기하평균 (Geometric Mean):
핵심 차이의 감각
🎯 감각 1: 곱셈적 vs 덧셈적 관계
산술평균: "더하기" 세계
→ 차이(difference)를 다룸
→ 절대적 거리
기하평균: "곱하기" 세계
→ 비율(ratio)을 다룸
→ 상대적 거리
구체적 예시:
Case 1: a=2, b=8
산술평균: (2+8)/2 = 5
기하평균: √(2×8) = √16 = 4
2 ━━━━━━━━━━━━━━━━ 8
AM=5 (중간 위치)
GM=4 (비율적 중간)
비율 관점: 2→4는 2배, 4→8도 2배 (기하평균이 비율적으로 중간!)
Case 2: a=1, b=100
산술평균: (1+100)/2 = 50.5
기하평균: √(1×100) = 10
1 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100
GM=10 AM=50.5
비율 관점: 1→10은 10배, 10→100도 10배
🎯 감각 2: 극단값에 대한 민감도
산술평균:
예시: 1, 1, 1, 1, 100
산술평균 = (1+1+1+1+100)/5 = 20.8
→ 극단값(100)에 크게 영향받음
→ "한쪽으로 끌려감"
기하평균:
예시: 1, 1, 1, 1, 100
기하평균 = ⁵√(1×1×1×1×100) = ⁵√100 = 2.51
→ 극단값에 덜 민감
→ "균형잡힌" 값
왜 이런 차이가?
- 곱셈은 0에 가까운 값이 하나라도 있으면 전체가 작아짐
- 양쪽 모두 "기여"해야 큰 값이 나옴
🎯 감각 3: 대칭성과 불변성
산술평균의 스케일 변환:
a=2, b=8 → AM=5
2배 확대: a=4, b=16 → AM=10 (2배)
✓ 선형 변환에 불변
기하평균의 비율 불변성:
a=2, b=8 → GM=4, 비율=2:8=1:4
2배 확대: a=4, b=16 → GM=8, 비율=4:16=1:4
✓ 비율 구조 보존
3️⃣ Bhattacharyya Coefficient에서 기하평균을 사용하는 이유
🔍 왜 산술평균이 아닌 기하평균인가?
만약 산술평균을 사용한다면:
문제 1: 확률의 합이 됨
p와 q가 각각 합이 1이므로
→ BC_arithmetic = (1 + 1)/2 = 1 (항상!)
→ 아무 정보도 제공 안 함 ❌
기하평균을 사용하면:
장점 1: 양쪽이 모두 높아야 큰 값
p(x) = 0.8, q(x) = 0.8 → √(0.64) = 0.8 ✓
p(x) = 0.8, q(x) = 0.1 → √(0.08) = 0.28 ✓
p(x) = 0.0, q(x) = 0.8 → √(0.00) = 0.0 ✓
→ 실제 "겹침"을 측정!
📊 시각적 비교
두 분포의 특정 점에서:
p(x) = 0.6 ━━━━━━━━━━━━
q(x) = 0.2 ━━━━
산술평균: (0.6+0.2)/2 = 0.4
→ 한쪽이 높으면 높게 평가
기하평균: √(0.6×0.2) = √0.12 = 0.346
→ 양쪽이 모두 높아야 높게 평가
→ "진짜 겹침"만 카운트
극단적 경우:
Case 1: p=1.0, q=0.0
산술평균: 0.5 (겹침이 있는 것처럼 보임)
기하평균: 0.0 (진실: 겹침 없음) ✓
Case 2: p=0.5, q=0.5
산술평균: 0.5
기하평균: 0.5 (동일)
Case 3: p=0.9, q=0.1
산술평균: 0.5 (Case 2와 같음)
기하평균: 0.3 (더 적은 겹침으로 평가) ✓
4️⃣ 수학적 감각을 키우는 방법
💡 감각 1: 스케일에 따른 감각
덧셈 세계 (산술평균):
"절대적 차이"를 다룰 때
→ 온도 차이, 거리 차이
→ 100-50 = 200-150
곱셈 세계 (기하평균):
"상대적 비율"을 다룰 때
→ 성장률, 수익률, 확률
→ 2→4는 2배, 100→200도 2배
실생활 예시:
은행 이자 계산 (기하평균이 맞음):
1년차: 10% 수익
2년차: 20% 수익
잘못된 계산 (산술): (10+20)/2 = 15%
→ 100 → 115 → 132.25 ❌
올바른 계산 (기하): √(1.1 × 1.2) - 1 = 14.89%
→ 100 → 110 → 132 ✓
💡 감각 2: 대칭성과 균형
산술평균:
1과 9의 중간 = 5
→ 수직선상 중간점
기하평균:
1과 9의 중간 = 3
→ 비율적 중간점
1×3 = 3
3×3 = 9
(같은 비율로 증가)
시각적 느낌:
선형 스케일 (산술평균):
|----|----|----|----|
1 3 5 7 9
^중간은 5
로그 스케일 (기하평균):
|-------|-------|
1 3 9
^중간은 3
💡 감각 3: 곱의 제약
기하평균의 핵심 성질:
√(a × b)가 크려면:
→ a와 b 둘 다 커야 함
→ 한쪽이 0이면 무조건 0
→ "균형"이 중요
이것이 바로 "겹침" 측정에 완벽한 이유!
확률 분포 예시:
위치 x₁에서:
p(x₁) = 0.001 (거의 없음)
q(x₁) = 0.999 (거의 확실)
산술평균: 0.5 → "중간 정도 겹침"처럼 보임
기하 평균: 0.03 → "거의 안 겹침"이 맞음!
→ 한쪽이라도 낮으면 겹침으로 안 쳐줌
5️⃣ 실전 맥락 이해
🎮 게임 데이터 분석 맥락
시나리오: 플레이 시간 분석
정상 유저의 1일 플레이 시간 분포:
8시간 구간: p = 0.01
10시간 구간: q = 0.50
기하평균: √(0.01 × 0.50) = 0.07
→ "8시간 구간에선 거의 안 겹침"
vs 만약 산술평균:
(0.01 + 0.50)/2 = 0.255
→ "25%나 겹치는 것처럼 오해"
왜 이게 중요한가:
- 어뷰저 탐지 모델의 분리 능력 평가
- BC가 작다 = 두 그룹이 잘 구별됨 = 좋은 feature
📈 데이터 분석 실무 팁
언제 산술평균?
✓ 평균 매출 (합산 개념)
✓ 평균 온도
✓ 평균 점수
→ "더하기" 관점
언제 기하평균?
✓ 평균 성장률
✓ 확률의 결합
✓ 비율의 평균
✓ 분포의 겹침 (BC!)
→ "곱하기" 관점
6️⃣ 연습 문제로 감각 키우기
문제 1: 비율적 중간점
두 숫자 4와 16
- 산술평균: 10
- 기하평균: 8
질문: 왜 기하평균이 더 작은가?
힌트: 4→8은 2배, 8→16도 2배
해설:
- 산술평균 10은 절대적 거리의 중간
- 기하평균 8은 비율적 거리의 중간
문제 2: 확률 분포의 겹침
두 확률 p=0.9, q=0.1
- 산술평균으로 "겹침": 0.5
- 기하평균으로 "겹침": 0.3
질문: 어느 것이 실제 겹침을 더 잘 표현하는가?
해설:
- 한쪽은 90%, 다른 쪽은 10%
- 진짜 "둘 다 일어나는" 정도는 낮음
- 기하평균 0.3이 더 정확한 겹침 측정
문제 3: 실전 Feature 평가
정상 유저 vs 어뷰저
특정 행동의 발생 확률:
- 정상: 0.8
- 어뷰저: 0.2
이 특징은 두 그룹을 잘 구별하는가?
BC 기여도 = √(0.8 × 0.2) = 0.4
→ 중간 정도 겹침
→ 이 특징만으론 부족, 다른 특징 필요
해설:
- BC가 0에 가까울수록 구별이 잘 됨
- 0.4는 여전히 상당한 겹침
- 추가 feature를 찾아 조합 필요
💡 핵심 요약
산술평균의 세계
- 덧셈, 절대값, 거리
- "A와 B를 합쳐서 나누기"
- 극단값에 민감
- 사용 예: 평균 점수, 평균 온도, 평균 거리
기하평균의 세계
- 곱셈, 비율, 스케일
- "A와 B의 균형점"
- 양쪽 모두 기여해야 함
- 사용 예: 성장률, 수익률, 확률 겹침
BC에서 기하평균을 쓰는 이유
-
진짜 겹침만 측정
- 한쪽만 높으면 겹침 아님
- 양쪽 모두 높아야 높은 값
-
대칭성 보장
- p와 q 순서 바꿔도 같 음
-
확률의 특성 반영
- 독립 사건의 결합 확률 = 곱
- 겹침 = 두 분포가 동시에 높은 정도
