[SPSS 23] 위계적 다중회귀분석(Hierarchical Multiple Regression Analysis)
위계적 다중회귀분석(hierarchical multiple regression analysis)에 대한 포스팅을 1년전 부터 마음만 먹다가 오늘에야 비로소 올리게 되었다. 그동안 서점에 가서 관련 자료도 찾아보고 네이버, 구글까지 다 찾아보았지만 초보자를 위한 자세한 설명은 고사하고 위계적 다중회귀분석을 다루는 책조차 많지 않음을 알 수 있었다. 지금의 포스팅을 통하여 많은 연구자들에게 지식 나눔의 장이 되었으면 좋겠다.
위계적 회귀분석은 다중회귀분석의 한 종류로서 마치 단계 선택법을 이용한 다중회귀분석과 어원이 비슷해 보인다. 그러나 영어적 표현으로는 Hierarchical 과 Stepwise 표현으로 분류가 된다. 단계선택법은 가장 유의한 독립변수들을 컴퓨터가 알아서 삽입해주는 것이고, 위계적 방식은 연구자가 경험에 의해 직접 독립변수를 단계적으로 투입하는 방식이다. 따라서 해석하는 방법도 비슷하면서도 약간은 다르게 해석된다.
내 아내는 두 아들의 키에 민감하다.. ㅡㅡ; 갈톤도 나의 키와 비슷했을까? 아버지의 키가 양 극단치로 갈수록 아들의 키는 인간의 평균적인 키로 되돌아 가려는 성질이 있다는 것을 갈톤이 연구를 통하여 발견하였고, 여기에서 회귀(regression)란 단어를 사용하였다고 한다. 가끔 아내가 아빠를 닮아서 키가 작다고 하소연하면 나는 갈톤의 연구를 들려준다... ^^
상관분석이 두 변수의 선형적인 연관성을 비교하는 것이라면, 회귀분석은
선형적인 상관성을 가진 변수간의 인과관계를 증명하는 것이다. 여기에서 원인이 되는 독립변수와 결과가 되는 종속변수의 개념이 등장하며, 독립변수가 1개, 종속변수가 1개인것을 단순회귀분석이라 한다. 다중회귀분석은 종속변수가 1개로 같지만 독립변수가 2개 이상인 것을 의미한다.
변수의 수 및 종류에 따라 표현한 것으로 독립변수가 한개인것을
단순회귀 분석, 독립변수가 두개 이상인것을 다중회귀분석이라 한다. 그림에서 상관분석은 두 변수 사이의 원인과 결과가 아닌 서로 상관적 영향이 있는지를 분석하는 것이고, 회귀 분석은 인관관계로서 독립변수가 종속변수에 얼마만큼 영향을 주는지를 분석하는 것이다.
메르스가 창궐하고 있다. 처음에는 진짜 감기처럼 쉽게 생각했고, 건강한 사람은 반드시 완치될거라고 생각했다. 그런데 호환, 마마, 메르스 보다 무서운것은 아이들이 학교에 가지 못하는 웃지 못할 상황... 어찌하랴... 나에게 주어진 운명인것을...
회귀분석은 표준 회귀분석, 위계적 회귀분석, 단계적 회귀분석, 로지스틱 회귀분석 등과 같이 종류가 매우 다양하다.
내 아내는 두 아들의 키에 민감하다.. ㅡㅡ; 갈톤도 나의 키와 비슷했을까? 아버지의 키가 양 극단치로 갈수록 아들의 키는 인간의 평균적인 키로 되돌아 가려는 성질이 있다는 것을 갈톤이 연구를 통하여 발견하였고, 여기에서 회귀(regression)란 단어를 사용하였다고 한다. 가끔 아내가 아빠를 닮아서 키가 작다고 하소연하면 나는 갈톤의 연구를 들려준다... ^^
상관분석이 두 변수의 선형적인 연관성을 비교하는 것이라면, 회귀분석은 선형적인 상관성을 가진 변수간의 인과관계를 증명하는 것이다. 여기에서 원인이 되는 독립변수와 결과가 되는 종속변수의 개념이 등장하며, 독립변수가 1개, 종속변수가 1개인것을 단순회귀분석이라 한다. 다중회귀분석은 종속변수가 1개로 같지만 독립변수가 2개 이상인 것을 의미한다.
변수의 수 및 종류에 따라 표현한 것으로 독립변수가 한개인것을 단순회귀 분석, 독립변수가 두개 이상인것을 다중회귀분석이라 한다. 그림에서 상관분석은 두 변수 사이의 원인과 결과가 아닌 서로 상관적 영향이 있는지를 분석하는 것이고, 회귀 분석은 인관관계로서 독립변수가 종속변수에 얼마만큼 영향을 주는지를
분석하는 것이다.
다중회귀분석과 마찬가지로 위계적 다중회귀분석 역시 독립변수가 2개
이상이다. 만약 일반적인 다중회귀분석이었다면 외모, 성격, 경제력을 독립변수로 놓고 배우자 호감도를 종속변수로 두어 회귀식을 구성하였을 것이다.
앞에서도 얘기했지만 독립변수는 영향을 미치는 변수 즉, 원인변수이며, 종속변수는 영향을 받는 변수 즉, 결과 변수이다. 따라서 아무런 상관이 없는 변수가 아닌 서로 논리적 타당성이 있는 변수를 독립변수와 종속변수로 설정해야 한다. 다중 회귀분석의 가장 기본적인 과업은 상수 및 각 베타회귀계수를 구하는 것이다. 두 변수간의 관계에서 독립변수와 종속변수의 설정은 어디까지나 논리적 타당성을 토대로 해야 하며, 논리적 타당성과 함께 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정할 수 있으나, 논리적 근거가 없이 어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 주장할 수는 없는 것이다(회귀분석의 결과 만으로는 결코 인과관계를 규명할 수 없음). 위의 회귀식에서 ∧ (hat; 추정자)은 잔차(residual)를 의미하며 종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다. 단순회귀식에 봤던 것과는 달리 엡실론(ε ; epsilon)이 사라지고 종속변수 Y와 베타회귀 계수에 ∧ (hat; 추정자) 를 붙인것을 볼 수 있다. 회귀식을 표기할 때 엡실론이 들어가면 hat 을 빼야하고, hat 이 들어가면 엡실론을 삽입하면 된다. 둘의 의미는 같고 표기 방식만 다를 뿐이다.
다중회귀분석에서 회귀식을 추정하는 방법에는 입력, 단계선택, 전진,
후진, 제거 방법의 총 5가지가 있다고 언급한바 있다.
회귀분석에서 변수들은 다음과 같은 전제 조건을 필요로 한다. 첫번째로 독립변수와 종속변수는 서로 선형적 관계가 있어야 한다. 다시말해 독립변수값이 변하면 종속변수도 일정하게 변해야 한다는 것이다. 두번째로 종속변수의 관측치와 예측치 간의 차이를 오차항이라 하는데 이러한 오차항의 일정한 분산과 정규 분포를 해야 한다. 세번째로 오차항의 독립성이 필요한데 쉽게 말해 변수들이 통계적으로 서로 독립적이어야 한다는 것이다. 독립변수는 종속변수에 영향을 미쳐야 하는데 독립변수끼리 또는 종속변수끼리 영향을 서로 미치게 되면 안된다는 것이며, 이렇게 영향을 미치는 정도를 다중공선성이라 한다.
상관분석에서 상관관계의 정도를 나타내는 계수가 바로 상관계수(R ; correlation coefficient)였다. 이 상관계수를 제곱한 값이 바로 결정계수(R^2 ; coefficient of determination) 이다. 이는 회귀식이 자료를 얼마나 잘 설명하고 있는가? 다시말해 독립변수가 종속변수를 얼마나 잘 설명하고 있는가를 나타낸 계수이다. 결정계수는 상관계수와 마찬가지로 0 < R^2 < 1 사이의 값을 가지며, 일반적으로 0.65 (65%) 보다 클 경우 회귀식을 잘 설명한다고 판단한다. 수정된 결정계수는 다중회귀분석에서 나오는 개념으로 독립변수의 수가 늘어날 수록 결정계수가 높아지는 단점이 있어 이를 보완하기 위해 도입되었다. 따라서 다중회귀분석에서는 결정계수가 아닌 수정된 결정계수를 논문에 언급해야 한다. 하지만 많은 논문에서 결정계수만 언급되고 있는데, 논문 심사자 및 학회지의 특성에 따라 적절하게 쓰면 될것 같다.
상관분석에서 언급했던 Dancey의 상관계수 등급이다. 결정계수
또한 상관계수의 제곱이므로 이 등급을 같이 사용할 수 있다. 결정계수는 최소한 Moderate 등급은 되어야 하며, P 값이 0.05보다 낮게 나왔더라도 Weak 등급 이하는 회귀식을 적용하는 의미가 없어진다. 예를들어 결정계수가 0.3 이라면, 독립변수가 종속변수를 설명하는 정도는 30%에 불과하며, 70% 다른 원인에 의해 변화된다는 얘기가 되어버리는 것이다.
회귀분석을 하게되면 결과에 분산분석 표가 등장한다. H0 : 회귀선이 유의하지 않다 (β1 = 0).
다른 평균 분석들에서는 주로 정규성만 검증하면 됐었는데
회귀분석에서는 검증해야 할 항목이 많다.
잔차의 정규성은 데이터탐색 기능을 이용하는게 아니라 위와 같이
그래프를 보고 판단한다.
위와 같이 대각선에 다른 무리들과 떨어져 있는 값을 이상값이라 한다. 이상값이 많을수록 결정계수는 낮아지며, 그만큼 회귀식의 설명력 또한 낮아지게 된다. 이상값을 판별하는 것은 "표준화", "쿡의 거리", "표준화 DFFIT" 옵션을 통해 확인할 수 있다. 마지막으로 회귀분석은 등분산을 하고 있어야 하는데, 이는 모두 회귀분석 결과에서 확인할 수 있다.
다중 공선성은 다중회귀분석에서 매우 중요한 개념이다. 독립변수가
여러 개일 경우 그 변수들 끼리 상관관계가 높을 경우 잘못된 결과가 도출될 수 있다. 일반적으로 독립변수들 끼리의 상관계수가 90% 이상이면 공선선이 있다고 판단하는데 SPSS에서는 VIF 즉, 분산확대인자가 10 이상으로 나올 경우 다중 공선성이 있다고 판단한다.
VIF 외에도 공차한계를 통해서도 다중공선성을 판단할 수 있다. 마찬가지로 공차한계도 SPSS 의 결과 표에서 확인할 수 있다.
공차한계는 공성선을 점검하기 위해 많이 사용되는 지표로서 한 독립변수가 다른 독립변수들에 의해 설명되지 않는 부분을 의미한다. 공차한계 값이 작을 수록 다중 공선선이 높다고 판단한다.
VIF는 공차한계의 역수로 계산되는데 절대치는 없으나 일반적으로 공차한계는 0.1 이하, VIF는 10 이상일 때 다중 공선선이 높다고 판단하며 공선성을 낮추기 위해서는 상관관계가 높은 독립변수를 제거하거나 단계선택방식을 사용하여 분석하기도 한다.
위의 표에서 빨간색 음영이 되어 있는 VIF 값들을 보았을 때 모두 10 보다 훨씬 크게 나타나있다. 여기에서 X4 변수가 282.513으로 가장 높가 나타나 있는데 X4를 제거하고 다시 분석해보면 VIF 가 10 미만으로 내려간 것을 확인 할 수 있다. 또한 P 값 역시 X4 제거 전과 후에 변화가 심하게 나타난 것을 확인할 수 있다.
다중 공선성이 의심되면 아래의 상황을 의심해 볼 수 있다. 1.
Data 수에 비해 과다한 독립변수를 사용했을 때
다중 공선성이 발생되면, 회귀 모형의 적합성이 떨어지고, 다른 중요한 독립변수가 모형에서 제거 될 가능성이 높다. 또한 결정계수의 값이 과대하게 나타날 수 있거나 설명력은 좋은데 예측력이 떨어질 수 있게된다.
많은 연구자들이 회귀분석에서 어려움을 느끼는 것 중 하나가 표가
많이 출력되기 때문이 아닐까 싶다. 그래서 해석하는 순서를 정리해 보았다.
첫번째 독립변수인 방어행위_평균을 삽입한 후 "다음(N)" 버튼을 클릭한다.
여기에 두번째 독립변수인 방어도구_평균 을
삽입한다.
|