http://geum.tistory.com/3

 

Multivariable analysis(다변수 분석) 중 의학 통계에서 많이 사용되는 것은 크게 3가지가 있다.

1) Multiple Linear regression
  : yi = α + β1xi1 + β2xi2 + β3xi3 + · · · · · · + βkxik + ε

2) Logistic regression
  : ln[p/1-p] =  α + β1xi1 + β2xi2 + β3xi3 + · · · · · · + βkxik

3) Proportional hazard regression
 : λi[t] = λ0[t] exp(α + β1xi1 + β2xi2 + β3xi3 + · · · · · · + βkxik )

 다변수 분석은 말 그대로 다양한 독립변수를 통계적 모형에 넣어서 서로의 영향을 보정(adjust)하고, 상호작용(interaction)을 계산하고 나아가서 더 정확하게 종속변수를 예측할 수 있다.

 세가지 통계적 모형은 전부 좌측항의 종속변수(yi, ln[p/1-p], λi[t]) 를 예측하기 위해
선형 모형(α + β1xi1 + β2xi2 + β3xi3 + · · · · · · + βkxik + ε)을 사용하는데 이런 선형 모형을
일반화하여 분석하는 것이 Generalized Linear Model이다.

여기서 일반화 한다는 것은 이런 선형모형을 가지고 위 세가지의 통계적 모형 뿐만 아니라
다야한 통계모형을 구축하여 분석할 수 있다는 것이다.

하지만 위 세가지 모형에서 선형 모형이 종속변수와 연결된 "함수 형태"가 각기 다르다.
예로 2)의 logistic regression 같은 경우 ln[p/1-p]의 형태로 연결 되어있는데 이렇게
독립변수와 선형모형의 종속변수를 연결하는 함수를 연결함수(link function)라고 한다.

또한 종속변수의 분포(distribution)도 정규분포,이항분포, 포아송 분포 등 다양한데
GLM에서는 다양한 분포와 연결함수를 가지고 다양한 통계적 모형을 구축하여 분석할 수 있다.


간단한 logsitic regression 을 GLM으로 분석해보자.

apache  fate
0         Alive
2         Alive
3         Alive
4         Alive
5         Alive
6         Alive
7         Alive
8         Alive
9         Alive
10       Alive
11       Alive
12       Alive
13       Alive
14       Alive
15       Alive
16       Alive
17       Dead
18       Dead
19       Alive
20       Alive
21       Dead
22       Dead
23       Alive
24       Dead
25       Dead
26       Dead
27       Alive
28       Dead
29       Dead
30       Dead
31       Dead
32       Dead
33       Dead
34       Dead
35       Dead
36       Dead
37       Dead
41       Alive

38명의 환자의자료로서 독립변수는 APACHE score, 종속변수는 사망 여부이다.
종속변수가 이항변수이므로 APACHE score가 얼마나 사망여부를 예측할 수 있느가를
분석하기 위해 간단히 logistic regression 을 시행하여 OR(p/1-p)를 구할 수 있으나
GLM으로도 가능하다.

(다음은 STATA에서 GLM을 시행시킨 명령어임)

glm fate apache, family(binomial) link(logit)

-> glm[GLM시행하라는 명령어] fate[종속변수 이름] apahce[독립변수 이름], family(binomial)[분포] link(logit) [연결함수]

실제로 시행시키면 선형모형의 회귀계수값을 구해지고 간단한 공식을 이용해 각 환자의
사망확률을 계산할 수 있다. 이를 그래프로 나타내면 다음과 같다.


점은 실제 간찰된 각 환자 케이스에서 APACHE score와 실제 사망여부를 표시하였고
곡선은 실행한 GLM모형으로 예측한 APACHE score에 대한 사망확률 여부를 보여 준다.
(SPSS에서 logistic regression을 실행했을 때 보여주는 집단 분류 히스토그램과는 약간
다름)


cf) 실제 proportional hazard regression의 경우 GLM을 잘 이용하지 않음.
실제 의학통계에서는 Log-linear model, Possion regression model 을 주로
GLM으로 시행함.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Posted by uniqueone
,