위 계적 회귀분석 - wi gyejeog hoegwibunseog

[SPSS 23] 위계적 다중회귀분석(Hierarchical Multiple Regression Analysis)

위계적 다중회귀분석(hierarchical multiple regression analysis)에 대한 포스팅을 1년전 부터 마음만 먹다가 오늘에야 비로소 올리게 되었다. 그동안 서점에 가서 관련 자료도 찾아보고 네이버, 구글까지 다 찾아보았지만 초보자를 위한 자세한 설명은 고사하고 위계적 다중회귀분석을 다루는 책조차 많지 않음을 알 수 있었다. 지금의 포스팅을 통하여 많은 연구자들에게 지식 나눔의 장이 되었으면 좋겠다.

위계적 회귀분석은 다중회귀분석의 한 종류로서 마치 단계 선택법을 이용한 다중회귀분석과 어원이 비슷해 보인다. 그러나 영어적 표현으로는 Hierarchical 과 Stepwise 표현으로 분류가 된다. 단계선택법은 가장 유의한 독립변수들을 컴퓨터가 알아서 삽입해주는 것이고, 위계적 방식은 연구자가 경험에 의해 직접 독립변수를 단계적으로 투입하는 방식이다. 따라서 해석하는 방법도 비슷하면서도 약간은 다르게 해석된다.

내 아내는 두 아들의 키에 민감하다.. ㅡㅡ;
분명 9살, 7살임에도 또래 아이들보다 작다며 슬퍼한다. 물론 시선은 나를 향해 있다. ㅜㅜ
그러면서도 "5세 이하까지 무료" 라는 놀이공원 및 뷔페 식당 문구를 보면 흐믓한 미소를 짓기도 한다.

갈톤도 나의 키와 비슷했을까?
회귀분석은 갈톤의 "아버지와 아들의 키 연관성 연구"에서 비롯되었다고 한다.
아버지의 키가 크면 대체적으로 아들도 키가 크다. 아버지가 작으면 아들도 작다. 그러나 아버지가 매우 크다고 해서 아들이 반드시 큰 것은 아니었으며, 반대로 아버지가 매우 작다고 해서 아들 또한 매우 작은 것은 아니었다.

아버지의 키가 양 극단치로 갈수록 아들의 키는 인간의 평균적인 키로 되돌아 가려는 성질이 있다는 것을 갈톤이 연구를 통하여 발견하였고, 여기에서 회귀(regression)란 단어를 사용하였다고 한다.

가끔 아내가 아빠를 닮아서 키가 작다고 하소연하면 나는 갈톤의 연구를 들려준다... ^^

상관분석이 두 변수의 선형적인 연관성을 비교하는 것이라면, 회귀분석은 선형적인 상관성을 가진 변수간의 인과관계를 증명하는 것이다. 여기에서 원인이 되는 독립변수와 결과가 되는 종속변수의 개념이 등장하며, 독립변수가 1개, 종속변수가 1개인것을 단순회귀분석이라 한다. 다중회귀분석은 종속변수가 1개로 같지만 독립변수가 2개 이상인 것을 의미한다.

위계적 다중회귀분석은 독립변수가 여러개 있는 다중회귀분석의 형태를 띄고 있으며, 분석방법 또한 비슷하다. 다만 독립변수를 연구자의 경험에 의해 하나씩 하나씩 또는 한 그룹씩 한 그룹씩 단계적으로 투입시키면서 독립변수의 상대적 영향력의 크기를 순서대로 파악하는 것을 말한다. 그런데 여기에서 연구자의 경험이라는게 조금 애매하다. 한마디로 정해진 순서가 없다는 얘기이다. 시간이 많다면 다양한 방법으로 투입시켜 본 후 본인의 연구와 적합한 회귀모형을 찾을것을 권장한다.

변수의 수 및 종류에 따라 표현한 것으로 독립변수가 한개인것을 단순회귀 분석, 독립변수가 두개 이상인것을 다중회귀분석이라 한다. 그림에서 상관분석은 두 변수 사이의 원인과 결과가 아닌 서로 상관적 영향이 있는지를 분석하는 것이고, 회귀 분석은 인관관계로서 독립변수가 종속변수에 얼마만큼 영향을 주는지를 분석하는 것이다.
화살표의 방향을 보면 이해하는 데 도움이 될 것이다.

메르스가 창궐하고 있다. 처음에는 진짜 감기처럼 쉽게 생각했고, 건강한 사람은 반드시 완치될거라고 생각했다.
그런데 35세의 삼성병원 의사마저 에크모(ECMO; 체외혈액순환기)를 통해서 생명이 유지되고 있다고 하니 이제야 비로소 실감이 나기 시작했다.
우리나라 최고의 병원에서, 질병이라면 최고의 전문가 조차 피해가지 못한다니... 전염병이란 무섭긴 무서운가 보다.

그런데 호환, 마마, 메르스 보다 무서운것은 아이들이 학교에 가지 못하는 웃지 못할 상황...

어찌하랴... 나에게 주어진 운명인것을...
그래서 나는 오늘도 공부에 매진해본다.
전염병이 돈다고 해서, 치사율이 높다고 해서 내가 두려움에 떨고 있을 필요는 없으니까...

회귀분석은 표준 회귀분석, 위계적 회귀분석, 단계적 회귀분석, 로지스틱 회귀분석 등과 같이 종류가 매우 다양하다.
그 중에서 다중회귀분석은 지난 시간에 했던 단순회귀분석의 확장판으로 선형 모델을 기초로 독립변수가 2개 이상일 때 사용된다.

가끔 아내가 아빠를 닮아서 키가 작다고 하소연하면 나는 갈톤의 연구를 들려준다... ^^

다중회귀분석과 마찬가지로 위계적 다중회귀분석 역시 독립변수가 2개 이상이다. 만약 일반적인 다중회귀분석이었다면 외모, 성격, 경제력을 독립변수로 놓고 배우자 호감도를 종속변수로 두어 회귀식을 구성하였을 것이다.

그러나 위계적 다중회귀분석은 위의 표와 같이 독립변수들을 연구자가 직접 단계로 나누어 하나씩 하나씩 투입시키게 된다.

예를 들어보면,
본인의 배우자를 만났을 때 무엇에 이끌렸는지 배우자 호감도를 조사하였다
질문 문항은 네 종류로서, 외모, 성격, 경제력에 대하여 이끌림 정도를 리커트 5점 척도로 나타내고, 배우자를 만났을 때 전체적인 호감도에 미친 영향을 평가하고자 한다.

1. 배우자의 외모는 몇점에 해당합니까? 1점(매우 비호감) ~ 5점(매우 호감)
2. 배우자의 성격은 몇점에 해당합니까? 1점(매우 비호감) ~ 5점(매우 호감)
3. 배우자의 경제력은 몇점에 해당합니까? 1점(매우 비호감) ~ 5점(매우 호감)
4. 배우자의 전체적인 호감도는 몇점에 해당합니까? 1점(매우 비호감) ~ 5점(매우 호감)

이런식으로 설문을 받고 코딩을 한 후 외모, 성격, 경제력은 독립변수로, 호감도는 종속변수로 활용한다.

종속변수 : 배우자 호감도
독립변수 1단계 : 외모
- 먼저 1단계에서 외모가 배우자 호감도에 미치는 영향을 조사하였다.
개인적인 의견이지만 20대 및 30대 초반에는 외모가 우선순위 아닐까...

독립변수 2단계 : 외모+성격
- 2단계에서는 외모와 성격을 독립변수로 묶어서 배우자 호감도에 미치는 영향을 조사하였다. 외모가 아무리 잘생기고 예쁘면 뭐하랴, 나중에 바람필지도 모르는데... 그래도 성격이 좋으면 아무래도 낫겠지~ 뭐.. 이런 생각이 들지 않을까?

독립변수 3단계 : 외모+성격+경제력
- 3단계에서는 외모와 성격 그리고 경제력까지 독립변수로 묶어서 배우우자 호감도에 미치는 영향을 조사하였다. 혈기 넘치는 20대 때야 사랑만 있으면 다 된다 하겠지만 살다보니 경제력이 1순위가 아닌가 싶다...^^
예쁘고, 잘생기고, 성격좋고, 돈도 많으면 최고의 신랑감, 신부감이 아닐런지....

이렇게 각각의 독립변수들만 놓고 평가하는 것이 아니라 각 단계별로 새로운 변수들과 합쳐졌을 때 설명력이 어떻게 변화하는지를 보고자 하는 것이 위계적 다중회귀분석이다. 다만, 위에서도 얘기했듯 독립변수를 투입하는 순서는 전적으로 연구자에게 달려있다는 것이다.

앞에서도 얘기했지만 독립변수는 영향을 미치는 변수 즉, 원인변수이며, 종속변수는 영향을 받는 변수 즉, 결과 변수이다. 따라서 아무런 상관이 없는 변수가 아닌 서로 논리적 타당성이 있는 변수를 독립변수와 종속변수로 설정해야 한다. 다중 회귀분석의 가장 기본적인 과업은 상수 및 각 베타회귀계수를 구하는 것이다.

두 변수간의 관계에서 독립변수와 종속변수의 설정은 어디까지나 논리적 타당성을 토대로 해야 하며, 논리적 타당성과 함께 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정할 수 있으나, 논리적 근거가 없이 어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 주장할 수는 없는 것이다(회귀분석의 결과 만으로는 결코 인과관계를 규명할 수 없음).

위의 회귀식에서 ∧ (hat; 추정자)은 잔차(residual)를 의미하며 종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다.

단순회귀식에 봤던 것과는 달리 엡실론(ε ; epsilon)이 사라지고 종속변수 Y와 베타회귀 계수에 ∧ (hat; 추정자) 를 붙인것을 볼 수 있다. 회귀식을 표기할 때 엡실론이 들어가면 hat 을 빼야하고, hat 이 들어가면 엡실론을 삽입하면 된다. 둘의 의미는 같고 표기 방식만 다를 뿐이다.

다중회귀분석에서 회귀식을 추정하는 방법에는 입력, 단계선택, 전진, 후진, 제거 방법의 총 5가지가 있다고 언급한바 있다.
위계적 다중회귀분석에서는 그 중 "입력" 방법만을 사용하며, "다음(N)" 버튼을 이용하여 다음 단계의 독립변수를 삽입시킨다.

회귀분석에서 변수들은 다음과 같은 전제 조건을 필요로 한다.

첫번째로 독립변수와 종속변수는 서로 선형적 관계가 있어야 한다. 다시말해 독립변수값이 변하면 종속변수도 일정하게 변해야 한다는 것이다.

두번째로 종속변수의 관측치와 예측치 간의 차이를 오차항이라 하는데 이러한 오차항의 일정한 분산과 정규 분포를 해야 한다.

세번째로 오차항의 독립성이 필요한데 쉽게 말해 변수들이 통계적으로 서로 독립적이어야 한다는 것이다. 독립변수는 종속변수에 영향을 미쳐야 하는데 독립변수끼리 또는 종속변수끼리 영향을 서로 미치게 되면 안된다는 것이며, 이렇게 영향을 미치는 정도를 다중공선성이라 한다.

상관분석에서 상관관계의 정도를 나타내는 계수가 바로 상관계수(R ; correlation coefficient)였다. 이 상관계수를 제곱한 값이 바로 결정계수(R^2 ; coefficient of determination) 이다. 이는 회귀식이 자료를 얼마나 잘 설명하고 있는가? 다시말해 독립변수가 종속변수를 얼마나 잘 설명하고 있는가를 나타낸 계수이다.

결정계수는 상관계수와 마찬가지로 0 < R^2 < 1 사이의 값을 가지며, 일반적으로 0.65 (65%) 보다 클 경우 회귀식을 잘 설명한다고 판단한다.
하지만 명확한 기준은 없는것 같다.
결정계수가 조금은 낮게 나왔더라도 연구자가 그 이유에 대해 충분히 입증할 수 있으면 가능할 것이라 생각되며, 아래 슬라이드의 Dancey의 등급을 참고해도 좋을것 같다.

수정된 결정계수는 다중회귀분석에서 나오는 개념으로 독립변수의 수가 늘어날 수록 결정계수가 높아지는 단점이 있어 이를 보완하기 위해 도입되었다. 따라서 다중회귀분석에서는 결정계수가 아닌 수정된 결정계수를 논문에 언급해야 한다. 하지만 많은 논문에서 결정계수만 언급되고 있는데, 논문 심사자 및 학회지의 특성에 따라 적절하게 쓰면 될것 같다.

다중회귀분석에서는 수정된 결정계수에 초점을 맞추었다면, 위계적 다중회귀분석에서는 R제곱과 R제곱 변화량을 더 중요시 한다. R 제곱 변화량은 독립변수를 추가하여 생성되는 R 제곱 통계량의 변화량을 나타내는 것으로, 하나의 변수와 연결된 R 제곱 변화량이 큰 경우 해당 변수는 종속 변수의 에측 변수로 적합함을 의미한다.

상관분석에서 언급했던 Dancey의 상관계수 등급이다. 결정계수 또한 상관계수의 제곱이므로 이 등급을 같이 사용할 수 있다. 결정계수는 최소한 Moderate 등급은 되어야 하며, P 값이 0.05보다 낮게 나왔더라도 Weak 등급 이하는 회귀식을 적용하는 의미가 없어진다. 예를들어 결정계수가 0.3 이라면, 독립변수가 종속변수를 설명하는 정도는 30%에 불과하며, 70% 다른 원인에 의해 변화된다는 얘기가 되어버리는 것이다.

회귀분석을 하게되면 결과에 분산분석 표가 등장한다.
여기에서의 분산분석은 세 그룹간의 평균차이 검정이 아닌 회귀선이 통계적으로 유의한지 여부를 검정하는 것이다.
따라서 분산분석의 P 값이 귀무가설을 기각 (P<0.05) 하여야 한다는 얘기가 된다.
이 분산분석의 가설은 다음과 같다.

H0 : 회귀선이 유의하지 않다 (β1 = 0).
H1 : 회귀선이 유의하다 (β1 ≠ 0).

다른 평균 분석들에서는 주로 정규성만 검증하면 됐었는데 회귀분석에서는 검증해야 할 항목이 많다.
회귀식을 다시 한번 살표보면,

y = β0 + β1x + ε1여기에서 y = 종속변수, β0 = 상수, β1 = 회귀계수, ε1 = 잔차를 의미한다.

회귀분석의 기본 가정사항 중 잔차의 독립성이 있다.
잔차가 다른 잔차에 영향을 미치게 되는 경우를 자기 상관이라고 하는데 자기 상관이 높으면 분석의 신뢰성을 잃게 된다.
잔차의 독립성은 Durbin-Watson 값으로 판단하게 되는데 0에 가까울수록 양의 자기상관, 4에 가까울수록 음의 자기상관이 있다고 판단하며, 2에 가까울수록 자기 상관이 없다고 판단한다.
보통 1.5 ~ 2.5 사이의 값을 적용하는것 같다.

잔차의 정규성은 데이터탐색 기능을 이용하는게 아니라 위와 같이 그래프를 보고 판단한다.
위와 같은 그래프를 정규 P-P 도표라고 하는데 대각선을 중심으로 데이터들이 균일하게 분포되어 있어야 한다.
만약 어느 한 데이터가 대각선으로부터 많이 떨어져 있다면 그 데이터를 삭제하거나 다시 측정해 볼 필요가 있다.

위와 같이 대각선에 다른 무리들과 떨어져 있는 값을 이상값이라 한다. 이상값이 많을수록 결정계수는 낮아지며, 그만큼 회귀식의 설명력 또한 낮아지게 된다.

이상값을 판별하는 것은 "표준화", "쿡의 거리", "표준화 DFFIT" 옵션을 통해 확인할 수 있다.
통계 옵션에서 위의 세가지를 체크하게 되면 SPSS의 데이터보기 창에 새로운 데이터가 생성되며, 표준화의 절대값이 3 미만이어야 하고, 쿡의 거리 절대값이 1 미만 그리고 표준화 DFFIT 절대값은 2 미만으로 나와야 한다.

마지막으로 회귀분석은 등분산을 하고 있어야 하는데, 이는 모두 회귀분석 결과에서 확인할 수 있다.

다중 공선성은 다중회귀분석에서 매우 중요한 개념이다. 독립변수가 여러 개일 경우 그 변수들 끼리 상관관계가 높을 경우 잘못된 결과가 도출될 수 있다. 일반적으로 독립변수들 끼리의 상관계수가 90% 이상이면 공선선이 있다고 판단하는데 SPSS에서는 VIF 즉, 분산확대인자가 10 이상으로 나올 경우 다중 공선성이 있다고 판단한다.

VIF 외에도 공차한계를 통해서도 다중공선성을 판단할 수 있다. 마찬가지로 공차한계도 SPSS 의 결과 표에서 확인할 수 있다.

공차한계는 공성선을 점검하기 위해 많이 사용되는 지표로서 한 독립변수가 다른 독립변수들에 의해 설명되지 않는 부분을 의미한다. 공차한계 값이 작을 수록 다중 공선선이 높다고 판단한다.

VIF는 공차한계의 역수로 계산되는데 절대치는 없으나 일반적으로 공차한계는 0.1 이하, VIF는 10 이상일 때 다중 공선선이 높다고 판단하며 공선성을 낮추기 위해서는 상관관계가 높은 독립변수를 제거하거나 단계선택방식을 사용하여 분석하기도 한다.

위의 표에서 빨간색 음영이 되어 있는 VIF 값들을 보았을 때 모두 10 보다 훨씬 크게 나타나있다. 여기에서 X4 변수가 282.513으로 가장 높가 나타나 있는데 X4를 제거하고 다시 분석해보면 VIF 가 10 미만으로 내려간 것을 확인 할 수 있다. 또한 P 값 역시 X4 제거 전과 후에 변화가 심하게 나타난 것을 확인할 수 있다.

다중 공선성이 의심되면 아래의 상황을 의심해 볼 수 있다.

1. Data 수에 비해 과다한 독립변수를 사용했을 때
2. 독립변수들의 상관계수가 크게 나타날 때
3. 한 독립변수를 회귀모형에 추가하거나 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를 줄 때
4. 새로운 Data를 추가하거나 기존의 Data를 제거하는 것이 회귀계수의 크기나 부호에 큰 변화를 줄 때
5. 중요하다고 생각되어지는 독립변수에 대한 P 값이 크게 나타나 통계적 차이가 없을 때 (회귀계수의 부호가 과거의 경험이나 이론적인면에서 기대되는 부호와 정반대일 때)

다중 공선성이 발생되면, 회귀 모형의 적합성이 떨어지고, 다른 중요한 독립변수가 모형에서 제거 될 가능성이 높다. 또한 결정계수의 값이 과대하게 나타날 수 있거나 설명력은 좋은데 예측력이 떨어질 수 있게된다.

많은 연구자들이 회귀분석에서 어려움을 느끼는 것 중 하나가 표가 많이 출력되기 때문이 아닐까 싶다. 그래서 해석하는 순서를 정리해 보았다.
보통 회귀분석의 결과를 보면 제일 위해서부터 해석하지 않는다.

1. ANOVA : 유의확률을 통해 회귀식이 적합한지 평가한다. P 값이 0.05 미만으로 나왔을 때 회귀식으로서 적합하다고 한다.

2. 계수 : 유의확률을 통해 회귀식에 들어갈 수 있는 독립변수를 확인한다. P 값이 0.05 미만으로 나온 독립변수들만 회귀식에 들어갈 수 있다. 통계적으로 유의한 독립변수들의 비표준화계수 및 표준화계수를 확인한다.

3. 모형요약 : 결정계수인 R 제곱과 R 제곱 변화량을 확인한다. 모형요약 표에 있는 유의확률 F 변화량은 계수에 있는 유의확률 값과 정확히 일치한다.

4. 모형요약 : 그 다음엔 Durbin-Watson 값을 확인하여 독립변수들 간의 자기상관성을 파악한다. 1.5~2.5 값이 나왔을 때 일반적으로 자기상관이 없다고 평가한다.

5. 계수 : 다시 계수 표로 이동하여 공차한계 값과 VIF 값을 확인하여 다중공선성이 있는지 평가한다. 공차한계 값은 0.1 이상, VIF 값은 10 미만일 때 다중공선성이 없다고 평가한다.

6. 데이터 보기 : 데이터 보기 창으로 이동하여 새로 생긴 ZRE_1, COO_1, SDF_1 값들을 확인한다. 표준화(ZRE_1)의 절대값이 3 미만이어야 하고, 쿡의 거리(COO_1) 절대값이 1 미만 그리고 표준화 DFFIT(표준화 DFFIF) 절대값은 2 미만으로 나와야 한다. 이 값들은 코딩된 데이터의 이상값들을 찾아내기에 편리하다.