[SPSS] 로지스틱 회귀분석 (Logistic Regression Analysis) (교차비, 오즈비, 분류표, 분할표, 최대우도법, 우도비 검정)

로지스틱 회귀 분석이란?

로지스틱 회귀 분석이란?

펭귄을 행복하게 하는 변수는 어떤 것들이 있을까?

새로운 혈압약의 효과를 확인하는 연구가 있다면 연구자들이 환자를 통해서 알고 싶은 것은 혈압이 140mmHg에서 120mgHg으로 줄어들 수도 있기 때문에 만약을 위해 고혈압의 유무를 확인하는 것이 더 중요하다고 할 수 있습니다.마찬가지로 혈당보다는 당뇨병 유무를, BMI 수치보다 비만 여부에 연구자들은 더 관심을 갖게 됩니다.즉, 혈압 수치와 같은 연속형 자료가 아니라 고혈압 유무와 같은 범주형 자료를 종속변수로 하여 특정 질병의 유무에 영향을 미치는 요인을 밝히는 통계적 방법을 로지스틱 회귀분석(Logistic Regression Analysis)이라고 합니다.

로지스틱 회귀 분석에 대해 좀 더 자세히 알아보기 위해 예제를 바탕으로 설명해 보겠습니다.아래 데이터는 30명의 환자를 대상으로 한 제약사 신약 구매 여부를 조사한 자료입니다.(구매:1, 미구매:0)

환자의 연령에 따른 구매 여부에 차이가 있는지 확인하기 위해 산점도를 그려 보았습니다.

산점도를 보면 나이가 낮을수록 신약 미구매(=0) 비율이 높고 나이가 많을수록 신약구매(=1) 비율이 높다는 것을 확인할 수 있습니다.따라서 나이가 많을수록 신약 구매율이 높다고 볼 수 있지만 정확히 구매 여부에 어느 정도 차이가 있는지는 한눈에 확인하기 어려운 상태입니다.이번에는 20대, 30대, 40~50대, 60대, 70대에 환자를 5개 그룹으로 분류하고 각 그룹별 신약 구매 비율에 대한 산점도를 그려보겠습니다.

연령 그룹별 신약 구입률

연령 그룹별 신약 구입률

연령 그룹별 산점도를 보면 연령이 증가할수록 신약 구매 비율이 높다는 것을 산점도를 통해 한눈에 확인할 수 있습니다.산점도를 선으로 연결하면 S자형을 갖는데, 이러한 함수를 로지스틱 함수라고 하며,

로지스틱 함수이렇게 S-shape 형식의 함수를 적합시킬 때 사용하는 방법이 로지스틱 회귀 분석이 됩니다.로지스틱 회귀 분석의 종속 변수와 독립 변수는 각각 종속 변수 Y:0 또는 1의 두 값을 취하는 변수 독립 변수 X:X가 하나일 경우 주어진 X에서 Y=1일 확률을 의미합니다. 로짓 변환 (Logit Transformation)이전의 포스팅에서 다룬 단순 회귀 분석과 다중 회귀 분석에서는 연속형 자료를 종속 변수로 갖습니다.예를 들면 광고비가 총 매출액에 어느 정도 영향을 미치는지 분석하는 연구에서 종속 변수는 총 매출고로, 이는 연속형 자료에 해당합니다.그러나 로지스틱 회귀 분석에서는 종속 변수가 특정 수치가 아니라 질환 아리=1, 질환,=0의 같은 범주형 변수를 사용하므로, 이하의 회귀 분석 모델식 y값을 그대로 사용할 수 없습니다.$y\=\\alpha+\combi{\beta}_1\combi<x]_1+\combi{\beta}_2\combi<x]_2+···+\combi{\beta}_k\combi<x]_k$y=α+β 1×1+β 2×2+…+β kxk이를 해결하기 위하여 로지스틱 회귀분석에서는 질환이 있을 확률을 p라고 할 때, $f\left(x\right)=\ln\combi{\frac{p}{1-p}$f(x)=lnp1-p라는 함수를 y에 대입하여 $\ln \combi{\frac{p}{1-p}\ = = \alpha + \combi{\beta}_1 \combi{x}_1 + \combi{\beta}_2 \combi{x}_2 +···+\combi{\beta }_k\combi{x}_k$lnp1−p = = α+β1×1+β2×2+…+βkxk라는 회귀 모델을 사용하는데, 이 과정을 로짓 변환이라고 합니다.S-shape에서 선형으로의 변환로짓 변환을 통해 S-shape인 로지스틱 함수를 선형으로 변환하여 회귀 분석을 진행할 수 있습니다. 로지스틱 회귀 모델의 추정과 해석선형 회귀 분석에서는 최소 제곱법을 사용하였으나 로지스틱 회귀 분석에서는 최대 우도법(Maximum likelihood method)이라는 방법으로 아래 회귀 모델을 추정합니다. $\ln \combi{\frac{p}{1-p}}\ =\ =\ \alpha +\combi{\beta }_1\combi{x}_1+\combi{\beta }_2\combi{x}_2+···+\combi{\beta }_k\combi{x}_k$lnp1−p = = α+β1×1+β2×2+…+βkxk최대 우도법에 대한 자세한 내용은 아래 포스팅을 참조하십시오.[Basic] 최대우도추정(Maximum Likelihood Estimation) 우도와 확률밀도함수 확률밀도함수에 대해서는 예전부터 많이 다루었던 내용이기 때문에 쉽게 이해할 수 있습니다…. blog.naver.comSPSS를 통해 위의 연령별 신약 구매에 관한 로지스틱 회귀 모델을 추정하면 다음과 같습니다. $\ln \frac{p}{1-p}=-4.109+0.089\ \times \ Age$lnp1−p=−4.109+0.089 × Age이 식을 p에 관해 정리하면, $p=\frac{\combi{e}^{-4.109+0.089Age}{1+\combi{e}^{-4.109+0.089Age}$p=e-4.109+0.089Age1+e-4.109+0.089Age예를 들어 위의 식에 Age=60을 대입하면 p=0.774가 나옵니다.즉 로지스틱 회귀 모델에 따르면 60세 환자가 신약을 구입할 확률이 약 77.4%임을 알 수 있습니다. 회귀계수와 교차비(오즈비, odds ratio)다시 기존 회귀식으로 돌아와 $\ln \frac{p}{1-p}=-4.109+0.089\times\Age$lnp1-p=-4.109+0.089×AgeAge의 회귀 계수인 0.089는 어떤 의미를 가질까요?그러기 위해서는 우선 교차비(오즈비, odds ratio)에 대한 이해가 필요합니다.교차비에 대한 내용은 아래 포스팅을 참고하시기 바랍니다.[R] 질적 자료의 기술(분할표, 상대위험도, 오즈비) 질적 자료(Qualitative data)란? 질적자료란반응치가여러개의카테고리로나누어진자료를말합니다. 一番······blog.naver.com위험인자에 의한 질병발생/미발생 확률을 아래 표와 같이 정리할 수 있습니다.이때 2개의 사례에 대한 로지스틱 회귀 모델을 적합시키면 다음과 같습니다.$\ln\combi{\frac{\combi<p}.”}{1-\combi<p}.”}}=\alpha+\combi{\beta}_1\combi{\combi<x]_1})”$lnp’1− p’=α+β 1×1’$\ln\combi{\frac{\combi<p}}{1-\combi<p}}}=\alpha+\combi{\beta}_1\combi{\combi<x]_1}$lnp1− p=α+β 1×12개의 식을 정리하면 아래 방정식을 이끌어 낼 수 있습니다.$\ln\combi{\frac{\combi<p}.”}{1-\combi<p}.”}}\}\-\\ln\combi{\frac{\combi<p}}{1-\combi<p}}}=\}=\\combi{\beta}_1\left(\combi{\combi<x]_1})”-\combi<x]_1\right)\=\\combi{\beta}_1$lnp’1− p’− lnp1− p=β 1(x1’− x1)=β 1$\Rightarrow\\\ln\frac{\frac{\combi<p}.”}{1-\combi<p}.”}}{\frac{\combi<p}}{1-\combi<p}}}\}\=\\combi{\beta}_1\$⇒lnp’1− p’p1− p=β 1$\Rightarrow\\\ln\left(odds\ratio\right)\=. combi{\beta}_1$⇒ ln(odds ratio)=β 1$\Rightarrow\\odds\ratio\=\\combi<e}.{\\combi{\beta}_1}\=\\exp\left(\combi{\beta}_1\right)$⇒ odds ratio=eβ 1=exp(β 1)$!!즉, 로지스틱 회귀 분석에서 회귀 계수 베타는 질병 발생 교차비(=exp(β))에 영향을 미치는 것으로 나타났습니다.예를 들어 교차비가 1이면 회귀계수 β=0이 되고, 이는 요인과 질병과는 전혀 관계가 없다는 것을 의미합니다.만약 교차비가 1보다 크면 요인에 따라 질병의 위험이 증가하고 1보다 작으면 위험이 감소하는 것을 의미합니다. $\ln \frac{p}{1-p}=-4.109 + 0.089 \ \times \ Age$lnp1-p=-4.109 + 0.089 × Age위 식을 교차비에 따라 해석해 보면, 연령이 1세 늘어날수록 신약 구매 대비 교차비는 $\combi{e}^{0.089}=1.093$e0.089=1.093약 1.093배 상승한다고 할 수 있습니다. 분류표 작성로지스틱 회귀 분석에서는 질병이 있을 확률이 0.5 이상일 경우 질병이 있을 것으로 예측하고 0.5 미만일 경우 질병이 없을 것으로 예측하며 실제로 이들 중 몇 %가 예측과 일치하는지 조사하는 분류표를 확인할 수 있습니다.위의 예에 대한 분류 결과를 보면, 총 30명 중 실제 결과와 로지스틱 회귀 모델에 의한 예측 결과가 일치한 사람이 13+9=22명임을 알 수 있습니다.총 분류 정밀도는 따라서 22/30=73.3%입니다.분류 정확도가 높을수록 로지스틱 회귀 모델이 실제 현상을 잘 예측했다고 할 수 있습니다. 추정된 모델의 유의성 검정위의 예에 대한 분류 결과를 보면, 총 30명 중 실제 결과와 로지스틱 회귀 모델에 의한 예측 결과가 일치한 사람이 13+9=22명임을 알 수 있습니다.총 분류 정밀도는 따라서 22/30=73.3%입니다.분류 정확도가 높을수록 로지스틱 회귀 모델이 실제 현상을 잘 예측했다고 할 수 있습니다. 추정된 모델의 유의성 검정선형 회귀 분석과 마찬가지로 로지스틱 회귀 모델에서도 모델 계수 전체 테스트(Model chi-square test)를 통해 추정된 회귀 모델의 유의성을 검정합니다.또한 회귀분석에서는 Cox & Snell의 결정계수와 Nagelkerke의 결정계수를 통해 회귀식 설명력을 제시합니다.일반적으로 Nagelkerke의 결정 계수를 사용합니다. Hosmer-Lemeshow’s goodness-of-fit test선형 회귀 분석과 마찬가지로 로지스틱 회귀 모델에서도 모델 계수 전체 테스트(Model chi-square test)를 통해 추정된 회귀 모델의 유의성을 검정합니다.또한 회귀분석에서는 Cox & Snell의 결정계수와 Nagelkerke의 결정계수를 통해 회귀식 설명력을 제시합니다.일반적으로 Nagelkerke의 결정 계수를 사용합니다. Hosmer-Lemeshow’s goodness-of-fit test로지스틱 회귀 분석에서 모델 적합도를 평가하는 방법 중 하나로 Hosmer-Lemeshow’s goodness-of-fittest가 있습니다.이 검정을 통해 p>0.05의 경우 모형이 적합하다고 해석합니다.SPSS에서는 기본적으로 Hosmer-Lemeshow’s goodness-of-fit test를 지원합니다.단, Hosmer-Lemeshow’s goodness-of-fit test는 표본 수가 충분히 클 경우에만 적용할 수 있으므로 주의가 필요합니다. SPSS에서의 로지스틱 회귀 분석그러면 SPSS에서 예시를 통해서 로지스틱 회귀 분석을 직접 해보도록 하겠습니다.데이터 소스: 배정민 저. 그림으로 이해하는 의사의 뱃살조차 보건 의학 통계 한나래아카데미데이터 소스: 배정민 저. 그림으로 이해하는 의사의 뱃살조차 보건 의학 통계 한나래아카데미먼저 SPSS에 해당 데이터 값을 입력합니다. low(=저체중), smoke(=흡연), ht(=고혈압) 세 가지 변수를 만들어 데이터를 입력해 주었습니다.먼저 SPSS에 해당 데이터 값을 입력합니다. low(=저체중), smoke(=흡연), ht(=고혈압) 세 가지 변수를 만들어 데이터를 입력해 주었습니다.다음으로 [분석] → [회귀분석] → [이분형 로지스틱] 을 선택합니다.[종속변수]로 low를 옮기고 [공변량] 에 smoke, ht를 넣습니다.이번에는 오른쪽 [옵션]으로 들어가서Hosmer-Lemeshow 적합도와 exp(B)에 대한 신뢰 구간을 선택하고 마지막 단계에서 보기를 설정한 후 계속 나온 후 확인을 눌러 결과를 기다립니다.로지스틱 회귀 분석에서는 다양한 결과가 출력됩니다. 자,이것을하나씩살펴보도록하겠습니다.① 모형계수의 총괄검정(회귀모델의 유의성) p=0.012 <0.05로 추정된 회귀모델은 유의하다고 할 수 있습니다.② Nagelkerke의 결정 계수 0.065로 회귀식은 현상을 약 6.5% 설명할 수 있습니다.③ Hosmer-Lemeshow goodness-of-fit test 적합도 검정 결과 p=0.890 > 0.05 이므로 모형은 적합하다고 할 수 있습니다.④ 분류표 실제 정상체중출산 130명 중 125명이 정확하게 예측되었고, 저체중출산 59명 중 7명이 회귀모델에 의해 올바르게 예측되었습니다.전체적으로는 69.8%의 예측도가 되었습니다.⑤ 회귀모델의 회귀식 B값은 회귀계수에 적합한 회귀식은 $f\left(x\right)=-1.179+0.712smoke+1.23ht$f(x)=-1.179+0.712smoke+1.23ht입니다.⑥회귀계수의유의확률smoke와ht의회귀계수의유의확률은0.028,0.046으로p<0.05이기때문에모두유의하다고할수있습니다.⑦ 교차비(Exp(B)) 흡연력이 있는 경우 흡연력이 없는 경우에 비해 약 2.038배의 저체중 출산 위험이 증가하는 것으로 해석할 수 있습니다.고혈압이 있는 경우는 고혈압이 없는 경우에 비해 약 3.421배의 저체중 출산 위험이 높아집니다.

error: Content is protected !!