Bhattacharyya Distance (바타차리야 거리) 쉽게 이해하기
· 약 6분
두 확률 분포의 차이를 측정하는 Bhattacharyya Distance를 실생활 예 시와 수식으로 완벽히 이해하기
🎯 핵심 개념
Bhattacharyya Distance는 두 개의 확률 분포가 얼마나 다른지를 측정하는 지표입니다. 쉽게 말하면, 두 그룹이 얼마나 "구별 가능한지"를 숫자로 나타낸 것이죠.
📊 실제 예시 1: 키 분포
두 그룹의 키를 비교한다고 생각해봅시다:
- 그룹 A: 한국 성인 남성 (평균 175cm, 표준편차 6cm)
- 그룹 B: 한국 성인 여성 (평균 162cm, 표준편차 5cm)
그룹 A: ___
/ \
/ \___
/ \
165 175 185 (cm)
그룹 B: ___
/ \
/ \___
/ \
155 162 170 (cm)
**Bhattacharyya Coefficient (BC)**는 두 분포의 겹치는 부분(overlap)을 측정합니다:
- BC ≈ 0.3 → 겹치는 부분이 적음 → 두 그룹이 잘 구별됨
- Bhattacharyya Distance = -ln(0.3) ≈ 1.2
📊 실제 예시 2: 이메일 분류
스팸 메일과 정상 메일을 구별하는 경우:
- 정상 메일: "회의", "보고서" 같은 단어 빈도가 높음
- 스팸 메일: "무료", "대박" 같은 단어 빈도가 높음
두 분포의 겹침이:
- 적으면 (BC 작음, 큼) → 구별하기 쉬움 ✅
- 많으면 (BC 큼, 작음) → 구별하기 어려움 ❌
