수식이 깨질 경우 새로고침을 눌러주세요.
가설과 검정 ①¶
검정(Test)과 모수 추정(Parameter Estimation)¶
데이터 분석의 기본 전제¶
우리가 갖고 있는 데이터는 표본(Sample)이다.
이 표본은 어떤 확률 분포를 따르는 확률 변수(Random Variable)에서 추출되었다.
이 확률 변수가 따르는 확률 분포를 알아내는 일이 데이터 분석의 핵심 과제이다.
확률 변수를 알아내려면?¶
다음 두 가지를 알아내야 한다.
- 분포 모형(Distribution Model)
- 모수(Parametet)
이러한 것을 알아내는 행위를 검정(Test) 또는 모수 추정(Parameter Estimation) 이라고 한다.
- 모수 추정(Parameter Estimation)은 간단히 추정(Estimation)이라고 하기도 한다.
분포 검정(Distribution Test)¶
확률 변수의 분포에 대한 가설(hypothesis)이 맞는지 틀리는지를 확인하는 확률 변수의 분포 검정(distribution test)
Ex) 정규성 검정(normality test)
- '분석을 하기 위한 데이터가 가우시안 정규 분포로부터 생성된 것인가?'라는 의문에서 시작
- 이 질문은 확률 변수의 분포가 정규 분포(Normal Distribution)이라는 것을 가설로 놓고 있다.
- 위 가설을 검정하는 것을 정규성 검정이라고 한다.
- 데이터 분석에서 가장 많이 사용되는 검정 중 하나이다.
모수 검정(Parameter Test)¶
$$ \text{ex)}\;분석하려는\; 데이터가\; 가우시안\; 정규분포를\; 따른다고\; 하자.\; \mu와\; \sigma^2이\; 특정한\; 값을\; 가지고\; 있는가?\; 예를\; 들면\; \mu = 0 \;인가? $$
- 확률 변수의 분포가 어떤 모형을 따르는지는 이미 정해져 있는 상태(알고 있는 상태).
- 확률 밀도 함수(pdf)의 계수(coefficient) 즉, 모수(parameter)가 특정한 값을 갖는지 확인.
- 모수가 특정한 값을 갖는다면 기준이 되는 값(보편적으로 정해져 있는 값)과 비교하여 큰 지 작은 지를 확인한다.
모수 추정(Parameter Estimation) 또는 추정(Estimation)¶
모수가 실제로 어떤 값을 가질 확률이 가장 높은지를 찾아내는 과정
$$ ex) 정규\; 분포의\; 모수\;\; \mu가\; 0이\; 아니라면\; 구체적으로\;\; 어떤 \;값을\;\; 가질\; 것인가? $$Estimation 방법에는 여러 가지가 있다.
- MSE(Maximum Squred Error), MLE(Maximum Likelihood Estimation) 등
이 방법들은 가장 확률이 높은 숫자 하나를 결정하는 방법
- Bayesian Estimation(베이지안 추정법)
가능한 모든 값에 대해 이 값들이 진짜 모수가 될 확률을 모두 계산하여 분포로 표시하는 방법
검정과 추정의 정리¶
- 우리가 갖고 있는 데이터는 확률 변수에서 추출한 표본이라고 가정한다.
- 어떤 확률 변수인지 알아내기 위해서 Test와 Estimation이 필요하다.
- 확률 변수가 어떤 분포를 따르는지 분포를 찾는 것이 가장 먼저 해야할 일이다. → 분포 검정
- 분포 검정을 통해서 확률 변수의 분포를 알게되면, 그 분포의 모수를 찾아서 데이터와 분포를 최적화(fit)해야 한다. → 모수 검정, 모수 추정
검정과 유의 확률¶
다음 두 문제를 봐보자.¶
문제 1
어떤 동전을 15번 던졌더니 12번이 앞면이 나왔다. 이 동전은 휘어지지 않은 공정한 동전(fair coin, 앞 뒤 확률이 각 각 0.5)인가?
sol)
- 동전을 던졌을 때 앞 면 : 확률 변수
- 이 확률 변수는 베르누이 분포를 따른다.
- fair coin → 베르누이 확률 분포의 모수(theta) = 0.5인지 검정
- theta = 0.5일 때, 15번 동전을 던졌을 때 앞면이 12번 나올 확률 값을 계산할 수 있다.
- 이렇게 구한 확률의 값이 판단자가 정한 특정한 기준(유의확률)에 미치지 못한다면 이러한 주장이 틀렸다고 생각할 수 밖에 없다.
- 반대로 값이 기준(유의확률)보다 높다면 그 주장이 틀렸다고 판단할 증거가 부족한 것이다.
문제 2
어떤 트레이더의 일주일 수익률은 다음과 같다.
- -2.5%, -5%, 4.3%, -3.7% -5.6%
- 이 트레이더는 돈을 벌어다 줄 사람인가, 아니면 돈을 잃을 사람인가?
sol)
- 트레이더의 수익률 : 확률 변수
- 이 확률 변수는 정규 분포를 따른다고 가정
- 트레이더가 장기적으로 돈을 벌어다 줄 것이라고 주장 → '정규분포의 평균(모수)이 0보다 크거나 같다'를 검정
- 정규 분포에서 해당 데이터가 나올 확률을 계산할 수 있다.
- 이렇게 구한 확률의 값이 판단자가 정한 특정한 기준(유의수준)에 미치지 못한다면 이러한 주장이 틀렸다고 생각할 수 밖에 없다.
- 반대로 값이 기준(유의수준)보다 높다면 그 주장이 틀렸다고 판단할 증거가 부족한 것이다.
가설(hypothesis)¶
위의 예처럼 확률 분포에 대한 어떠한 주장을 가설이라고 하며 H로 주로 표기한다. $$ H $$
이 가설을 증명하는 행위를 통계적 가설 검정(Statistical Hypothesis Testing) 줄여서 검정(testing)이라고 한다.
특히 확률 분포의 모수(Parameter)가 특정한 값을 가진다는 주장을 모수 검정(Parameter Testing)이라고 한다.
$$ H: \theta = 0 $$가장 일반적으로 사용되는 가설은 '모수의 값이 0' 이라는 가설이다.
- 이 가설은 회귀 분석(Regression)에서 흔하게 사용되는데 회귀 계수의 값이 0이면 종속 변수(target)가 해당 독립 변수(feature)의 영향을 받지 않는다는 의미
귀무 가설¶
$$ 귀무 \;가설 \;\;(H_0) $$검정을 하기 위해서는 기각 혹은 채택하고자 하는 가설을 만들어야 한다.
이러한 가설을 귀무 가설(Null Hypothesis)이라고 한다. $$ H_0\;로\;\; 표기한다. $$
일반적으로 검정에서 그냥 가설이라고 하면 귀무가설을 가리킨다.
- 귀무 가설(H_0) : True → 귀무 가설(H_0) 채택(accept)
- 귀무 가설(H_0) : False → 귀무 가설(H_0) 기각(reject)
대립 가설¶
$$ 대립\;가설 \;\; H_1 $$$$ H_1로 \;\;표기한다. $$귀무 가설이 기각되면 채택할 수도 있는 가설을 대립 가설(Alternative Hypothesis)이라고 한다.
$$ 예를 \;들어 \;\;\; H_0: \theta = 0 \;\; 일 때$$
다음 가설들은 이 귀무 가설에 대한 대립 가설이 될 수 있다. $$ H_1: \theta \neq 0 \\ \\ 이러한\;\; 형태는\;\; 양측\; 검정(two-tailed\; testing)을\; 한다.$$
$$ H_1: \theta > 0 $$$$ H_1: \theta < 0 $$
위 두 대립 가설의 경우는 단측 검정(one-tailed testing)을 한다.