본문 바로가기
Regression Analysis

Regression Analysis 가설검정, 추론

by 올뺴미 2023. 6. 6.

SSR = SST - SSE
\(\frac{S_{yy}}{\sigma^2} ~ X^2(n-1)\)
\(\frac{SSR}{\sigma^2}~X^2(p)\)
\(\frac{SSE}{\sigma^2}~X^2(n-p')\)
 
* 이 때 \( \frac{SSR}{\sigma^2} \)의 분포는 모든 베타가 0일 경우 성립된다. 이 때의 F통계량
 
\(F*=\frac{\frac{SSR/\sigma^2}{p}}{\frac{SSE/\sigma^2}{n-p'}} = MSR/MSE\) 
의 분포는 F(p,n-p')
 
가설과 검정통계량은 다음과 같다.

 
모든 회귀계수에 대한 검정

H0: \(\beta_{1} = 0\) , H0 : \(Y = \beta_{0}+\epsilon\)  즉 베타 1부터 베타 p까지 모두 0이다.
H1: \(\beta_{1} = \)not 0, H1 :  Y = \(\beta_{0}+\beta_{1}*X_{1}+...+\beta_{p}*X_{p}+\epsilon \)
즉 0이 아닌 것이 하나라도 있다.
이때의 검정통계량 F* = MSR/MSE ~F(p,n-p')
 

각각의 회귀계수에 대한 검정

H0: \(\beta_{k} = 0\) 
H1: \(\beta_{k} = \)not 0
즉 추가적인 설명력의 유의성여부를 검정하는 것이다.
검정통계량 t* = \(\frac{\hat{\beta_{k}}}{s.e.(\hat{\beta_{k}})}\)~t(n-p')
 

일부의 회귀계수에 대한 검정

H0: k개 \(\beta_{j} = 0\), H0 : p개의 설명변수 중 k개의 Xj가 제거된 모형 
H1: not H0, H1: \(Y = \beta_{0}+\beta_{1}X_{1}+...+\beta_{p}X_{p}+\epsilon\)
즉 k개를 제거해도 되는지, 혹은 k중에서 필요한 게 있는지를 검정한다.
 
설명되는 부분 차이 = 설명 안 되는 부분의 차이 
F* = \( \frac{\frac{SSE(r) - SSE(f)}{df(r)-df(f)}}{MSE(f)}\) = \( \frac{\frac{SSR(f)-SSR(r)}{k}}{MSE(f)}\) ~F(k,n-p')
 
이 때 r = reduced model, f = full model 이다.
 

결정계수

\(R^2 = 1- SSE/Syy\)
설명변수가 추가되면 알제곱은 증가한다.
 
수정결정계수라는 것이 있는데 이것은 비율에 관한 것이라 설명변수가 추가되더라도 계속 증가하지 않는다.
 
 
 기대값
 \(E(Y|x = x_{0})\)
기대값의 분산: 
\(Var[\hat{E}(Y|x = x0)] = \sigma^2x_{0}^T(X^TX)^{-1}x_{0}\)
 
새로운 관측값(예측값)
\(y_{0} = (y|x = x_{0})\)
예측값의 분산:
\(Var[\hat{y_{0}}|x = x0] = \sigma^2(1+x_{0}^T(X^TX)^{-1}x_{0})\)
 
m개의 새로운 관측값에 대한 평균의 분산
\(Var[\hat{\bar{y_{0}}}|x = x0] = \sigma^2(1+x_{0}^T(X^TX)^{-1}x_{0})\)
 
이 때 시그마 뒤에 붙어있는 것을 \(h_{00}\)으로 표기, 즉 \(x_{0}^T(X^TX)^{-1}x_{0})\) 이다.
\(h_{00}\)이 작은 것이 더 바람직하다.
 
h11,h22,....hnn은 H의 대각원소로, 실제 자료에서 \(h_{ii}\) 자료의 값이 얼마나 떨어져있는지를 나타낸다. 자료 안에 있는 값에서 매우 벗어나는 것들은 h_00의 값이 엄청 크다. 분산이 엄청커짐으로써 추정 결과가 정확성이 떨어지게 된다. 이를 외삽이라고 한다.
 

적합결여검정

 
H0: 주어진 모형이 적절함  H0 : E(Y) = \(\beta_{0} + \beta_{1}X\)
H1: 주어진 모형이 적절하지 않음 => 대안의 모형이 필요하다, 선형이 아니다 등.  E(Y) != \(\beta_{0} + \beta_{1}X\)
 
\(\sigma^2\) 값이 알려진 경우, \(X^2 = SSE/\sigma^2~X^2(n-2)\)
이 카이제곱값이 X^2(알파, n-2)값보다 크다면 H0을 기각한다.
 
SSE = SSPE + SSLOF ~(n-2)
SSPE ~(n-m)
SSLOF  ~(m-2)
 
SSLOF의 크기에 따라 H0의 기각 여부를 결정할 수 있다.
 
\(F* = \frac{SS_{LOF}/(m-2)}{SS_{PE}/(n-m)} ~ F(m-2,n-m)\)