우도(likelihood)
연결 문서
우도(likelihood)
통계학을 공부하다 보면 우도(Likelihood) 라는 용어를 자주 접하게 됩니다. 하지만 처음 접하는 분들에게는 다소 생소할 수 있는데요. 이 글에서는 우도가 무엇인지, 그리고 일상적인 예시를 통해 쉽게 이해해 보겠습니다.
우도란 무엇인가?
우도는 관찰된 데이터가 특정한 조건이나 모수(parameter) 아래에서 나왔을 가능성을 나타내는 척도입니다. 쉽게 말해, “현재의 데이터가 주어졌을 때, 이 데이터를 만들어낸 원인이 무엇일까?” 를 고민하는 것입니다.
우도와 확률의 차이점
많은 분들이 우도와 확률을 혼동하곤 합니다. 하지만 두 개념은 방향성이 반대입니다.
- 확률(Probability): 어떤 원인이 주어졌을 때, 그 결과가 나올 가능성입니다.
- 예: “공평한 주사위를 던졌을 때 6이 나올 확률은 얼마일까?”
- 우도(Likelihood): 어떤 결과가 주어졌을 때, 그 결과를 만들어낸 원인이 무엇일 가능성이 높을까를 평가합니다.
- 예: “주사위를 여러 번 던졌더니 6이 많이 나왔다. 이 주사위가 공평할 가능성은 얼마나 될까?”
일반적인 예시: 동전 던지기
동전 던지기는 통계학에서 자주 사용되는 예시입니다.
상황:
- 동전을 10번 던졌는데, 8번이 앞면이 나왔습니다.
질문:
- 이 동전은 공평한 동전일까요?
분석:
- 확률적 관점: 공평한 동전이라면 앞면이 나올 확률은 0.5입니다. 따라서 10번 중 8번 앞면이 나올 확률은 매우 낮습니다.
- 우도적 관점: 관찰된 결과(8번의 앞면)를 가장 잘 설명하는 동전의 특성(앞면이 나올 확률)은 무엇일까요? 이 경우, 앞면이 나올 확률이 0.8인 동전일 가능성이 높습니다.
일상생활 예시: 미스터리 케이크
상황:
- 친구가 만든 케이크를 먹었는데, 너무 짭니다.
질문:
- 왜 케이크가 이렇게 짤까요?
가능한 원인:
- 설탕 대신 소금을 넣었다.
- 레시피보다 소금을 많이 넣었다.
- 짠 재료(예: 치즈)를 추가했다.
우도 평가:
- 관찰된 결과는 “케이크가 짜다”입니다.
- 각 원인이 이 결과를 얼마나 잘 설명하는지 평가합니다.
- 설탕 대신 소금을 넣었다: 케이크가 매우 짤 가능성이 높습니다.
- 소금을 많이 넣었다: 짤 수 있지만, 설탕 대신 소금을 넣은 것보다는 덜 짤 수 있습니다.
- 짠 재료를 추가했다: 짤 수 있지만, 어느 정도인지에 따라 다릅니다.
결론:
- 케이크의 짠 정도를 고려했을 때, “설탕 대신 소금을 넣었다” 는 가설의 우도가 가장 높습니다.
우도의 중요성
우도는 통계 추론에서 매우 중요한 역할을 합니다.
- 최대우도추정법(MLE): 관찰된 데이터를 가장 잘 설명하는 모수(parameter)를 찾는 방법입니다.
- 데이터 분석, 기계 학습 등에서 모델을 최적화하는 데 사용됩니다.
결론
우도는 “주어진 결과를 가장 잘 설명하는 원인은 무엇인가?” 를 고민하는 개념입니다. 일상생활에서도 자연스럽게 사용하고 있으며, 통계학의 핵심적인 부분입니다. 처음에는 조금 어렵게 느껴질 수 있지만, 주변의 예시를 통해 생각해 보면 이해하기 쉬워집니다.
응용
좀 더 어려운 예시: 정규분포와 최대우도추정법(MLE)
상황:
- 어떤 공장에서 생산되는 부품의 길이는 정규분포를 따른다고 알려져 있습니다.
- 하지만 정확한 평균(μ)과 표준편차(σ)는 알 수 없습니다.
-
랜덤하게 선택한 10개의 부품의 길이를 측정했더니 다음과 같았습니다:
9.8, 10.2, 10.0, 9.9, 10.1, 9.7, 10.3, 10.0, 9.8, 10.2 (단위: cm)
질문:
- 이 데이터를 바탕으로 부품 길이의 평균(μ)과 표준편차(σ)를 우도를 이용하여 추정할 수 있을까요?
분석:
-
우도함수(Likelihood Function) 정의:
관찰된 데이터가 주어졌을 때, μ와 σ에 대한 우도함수는 다음과 같습니다.
여기서$f(x_i | \mu, \sigma)$는 정규분포의 확률밀도함수입니다. |
- 정규분포의 확률밀도함수:
-
로그우도함수(Log-Likelihood Function):
우도함수의 로그를 취하면 계산이 용이해집니다.
-
최대우도추정(MLE) 계산:
로그우도함수를 μ와 σ에 대해 편미분하고, 이를 0으로 놓아 μ와 σ의 추정치를 구합니다.
- μ에 대한 편미분:
이를 풀면:
\[\mu = \frac{1}{n} \sum_{i=1}^{n} x_i\]- σ에 대한 편미분:
이를 풀면:
\[\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2\]-
계산 결과:
- μ의 추정치:
- σ의 추정치:
먼저 각 데이터와 평균의 차이의 제곱을 구합니다.
\[\sum_{i=1}^{n} (x_i - \mu)^2 = (9.8 - 10.0)^2 + (10.2 - 10.0)^2 + \ldots + (10.2 - 10.0)^2 = 0.82\]따라서,
\(\sigma^2 = \frac{0.82}{10} = 0.082 \quad \Rightarrow \quad \sigma = \sqrt{0.082} \approx 0.286 \, \text{cm}\) 결론:
- 우도를 최대화하는 평균 μ의 추정치는 10.0 cm입니다.
- 우도를 최대화하는 표준편차 σ의 추정치는 약 0.286 cm입니다.
- 이는 관찰된 데이터를 가장 잘 설명하는 정규분포의 모수 추정치입니다.
추가로 살펴보는 예시: 로그우도와 회귀분석
상황:
- 연구자가 광고 비용과 판매량 간의 관계를 분석하고자 합니다.
- 다음과 같은 데이터가 있습니다.
광고 비용 (만원) | 판매량 (단위) |
---|---|
10 | 15 |
15 | 20 |
20 | 25 |
25 | 30 |
30 | 29 |
질문:
- 광고 비용과 판매량 사이의 선형 관계를 가정하고, 우도를 이용하여 회귀 계수들을 추정할 수 있을까요?
분석:
- 모델 설정:
선형 회귀 모델을 설정합니다.
\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i\]여기서$\epsilon_i$는 평균이 0이고 분산이$\sigma^2$인 정규분포를 따릅니다.
- 우도함수 정의:
각$y_i$는 정규분포를 따르므로 우도함수는 다음과 같습니다.
\[L(\beta_0, \beta_1, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2} \right)\]- 로그우도함수:
- 최대우도추정(MLE) 계산:
- 로그우도함수를$\beta_0$와$\beta_1$에 대해 편미분하고 0으로 놓습니다.
- 이는 최소제곱법과 동일한 결과를 가져옵니다.
- 계산 과정:
최소제곱법을 이용하여 회귀 계수를 추정합니다.
-$\beta_1$의 추정치:
\[\beta_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}\]-$\beta_0$의 추정치:
\[\beta_0 = \bar{y} - \beta_1 \bar{x}\]계산을 수행하면:
-$\bar{x} = \frac{10 + 15 + 20 + 25 + 30}{5} = 20$ -$\bar{y} = \frac{15 + 20 + 25 + 30 + 29}{5} = 23.8$
- 분자:
- 분모:
따라서,
-$\beta_1 = \frac{200}{500} = 0.4$ -$\beta_0 = 23.8 - 0.4 \times 20 = 15.8$
결론:
- 우도를 최대화하는 회귀 계수의 추정치는$\beta_0 = 15.8$,$\beta_1 = 0.4$입니다.
- 이는 광고 비용이 1만 원 증가할 때마다 판매량이 0.4 단위 증가함을 의미합니다.
- 우도를 이용한 추정은 최소제곱법과 동일한 결과를 가져옵니다.
우도 비율 검정(Likelihood Ratio Test)를 통한 모델 비교
상황:
- 두 개의 모델을 비교하고자 합니다.
- 모델 1(제한된 모델): 광고 비용과 판매량 사이에 관계가 없다. ($\beta_1 = 0$)
- 모델 2(전체 모델): 광고 비용과 판매량 사이에 선형 관계가 있다.
질문:
- 우도 비율 검정을 통해 두 모델 중 어떤 모델이 데이터를 더 잘 설명하는지 판단할 수 있을까요?
분석:
-
우도 계산:
- 모델 1의 우도(L₁):$\beta_1 = 0$로 설정하여 우도를 계산합니다.
- 모델 2의 우도(L₂): 이전에 계산한$\beta_0$와$\beta_1$를 사용하여 우도를 계산합니다.
-
우도 비율 통계량(Lambda):
이 통계량은 카이제곱 분포를 따릅니다.
-
검정:
- 유의수준(예: 0.05)을 설정합니다.
- 자유도는 제한된 모형과 전체 모형의 모수 차이입니다. 여기서는 1입니다.
- 계산된$\Lambda$ 값과 카이제곱 분포의 임계값을 비교합니다.
-
결과 해석:
-$\Lambda$가 임계값보다 크면, 모델 2가 더 적합하다고 판단합니다.
- 그렇지 않으면, 모델 1을 채택합니다.
결론:
- 우도 비율 검정을 통해 광고 비용이 판매량에 유의한 영향을 미치는지 통계적으로 검증할 수 있습니다.
- 이 방법은 모델의 복잡성을 고려하면서 데이터에 대한 적합성을 평가하는 데 유용합니다.
Enjoy Reading This Article?
Here are some more articles you might like to read next: