단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

회귀분석에 대한 이론을 아직 포스팅 하지는 않았지만,,

엑셀로 간단하게 해보고, 해석해보는 방법에 대해서 한 번 알아보도록 하겠습니다.

간단하게 회귀분석은 왜하는 거야? 라는 질문에 답변을 드리자면,,

예를 들어, 직장인의 회사생활 만족도에 대한 설문조사를 해보았다고 생각해볼게요.

"현재 당신의 회사생활 만족도는 몇 점인가요?"

저라면,, 점수를 주기 전에

연봉도 생각해보고 나의 동료/상사, 출퇴근 거리 등등을 고려해서 최종 나의 회사생활 만족도 점수를 결정할 것 같아요. 

그럼, 추가로 질문 하나 더 !

"우리 회사 직원들의 회사생활 만족도는 어떻게 높일 수 있을까요?"

가장 회사생활 만족도와 연관이 높은 요인을 찾아서, 그 요인을 개선하는게 제일 효과적이지 않을까요?

다중회귀분석은 회사생활만족도(Y)와 인간관계, 출퇴근거리 등과 같은 여러 요인(X)들과의 관계를 분석할 때 사용할 수 있어요.

여러가지로 할 수 있지만, 저는 지금 엑셀로 후다닥 해야하니까 엑셀에서 한번 해볼께요!

[ 준비 과정 ] 

1. 엑셀에서 '파일' > '옵션' > '추가기능' 에서 '이동'을 클릭해주세요.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

2. '분석 도구'를 체크하고 확인을 눌러주면 기능을 사용할 준비가 된거예요. :) 

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

엑셀 '데이터' 탭에 '데이터 분석' 이 생긴걸 보실 수 있답니다. 

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

[다중회귀분석 시작해보기]

1. 준비 

데이터는 알고자 하는 값 Y와, 그 Y에 영향을 주고 있는 여러 변수들 X 데이터를 준비해주시구요

'데이터분석'에서 '회귀분석'을 선택하고, 확인을 눌러주세요.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

2. 데이터 입력

창이 켜지면, Y축 입력 범위와, X 축 입력 범위를 적는 창이 나와요 :) 

저는 Y축에는 '회사생활 만족도'를 그리고 X 축 범위에는 '동료', '회의시간' 등등 회사생활에 영향을 미치는 변수들을 넣어볼께요.

워,,! 엑셀은 총 16개의 X변수만 입력 받을 수 있네요? ㅠㅠ 젠장,, ㅂㄷㅂㄷ;; 

저는 변수가 더 많았지만,, 조금 줄여서 ㅜ_ㅜ 생성해보도록 하겠습니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

3. 결과 확인

'확인'을 누르면 새로운 시트에 이런 결과가 나와요!

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

4. 해석

이제부터 해석을 한번 해보도록 하겠습니다. 

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

* 결정계수 = R Square, 조정된 결정계수 = Adjusted R Square

- 실 세계에서는 Adjusted R^2가 좀 더 가깝다고는 하는데, 통계학자들마다 해석방법이 조금씩 다른것 같아요.   

- 보통, 단일 회귀분석에서는 R^2, 다변량 회귀분석에서는 Adjusted R^2가 더 잘 맞는 경향이 있다고 합니다.  

- 0.6 (60%) 이상의 값을 가질 때 유의미하다고 봅니다.  

- 해석방법은, 본 회귀분석은 이 데이터를 설명하는 설명력이 약 9%정도 반영된 것이라고 보면 됩니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

* 유의한 F = Significance F 

 - 0.05보다 클 경우, P-value가 높은 X 변수를 삭제하면서 0.05 미만 값을 충족할 때 까지 회귀분석을 다시 해야해요.

 - 해당 값이 0.05보다 작을 경우 대립가설을 채택합니다. 

 - 대립가설을 채택한다는 말은 -> 회귀계수가 0이 아니다.

    -> 독립변수들 중 적어도 하나의 이상의 변수가 종속변수(Y)를 설명하는데 유의하다. 는 뜻입니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel

* P-값 = P-value

 - 어떤 독립변수가 종속변수 (Y)를 잘 설명하는지를 나타내요

 - p-value > 0.05 일 경우, 귀무가설을 채택합니다. --> 즉, 이 독립변수는 종속변수에 영향을 미치지 않는다.

 - p-value < 0.05 일 경우, 대립가설 채택 --> 이 독립변수는 종속변수에 영향을 미친다. 

이번 포스팅에서는 엑셀로 회귀분석하는 방법에 대해 알아보겠습니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
원본 데이터

이번에는 위 데이터를 이용해 운동시간과 비만도에 회귀관계가 형성되는지 확인하겠습니다.
이 데이터는 제가 랜덤함수를 이용해 임의로 만든 데이터입니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
가설 설정

가설을 다음과 같이 설정합니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
회귀 분석 기법 선택

통계 데이터 분석에서 회귀 분석을 선택합니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
범위 입력

y축에는 영향을 받는 비만도를, x축에는 영향을 주는 운동시간을 선택합니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
결과값

y절편의 값은 42.88이고, 잔차는 -0.7이 됩니다.
이는 운동을 전혀하지 않더라도, 비만도가 42만큼 존재한다고 할 수 있고,
운동시간이 1시간 증가할 때마다, 비만도가 -0.7만큼 적어진다고 할 수 있습니다.
조정된 결정계수가 0.003의 설명력을 가집니다. 즉 회귀식이 0.3%의 설명력을 가지니, 좋은 회귀식은 아니라고 볼 수 있습니다.
f비가 1.1이고, 유의한 f가 0.3이라, 귀무가설을 채택로, 운동시간이 비만도에 영향을 미치지 않는다고 할 수 있습니다.

이번에는 인자가 3개인 다중회귀분석을 실시하겠습니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
원본 데이터

이 데이터도 제가 임의로 작성한 데이터입니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
가설 수립

이전과 같이 회귀분석을 합니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
범위 입력

여기서 중요한 것은 인자가 늘어난 만큼, x축의 범위도 확대시킨다는 것입니다.

단순 회귀분석 엑셀 - dansun hoegwibunseog egsel
결과값

조정된 결정계수를 보면 0.16, 즉 회귀식 16% 설명력을 가지므로 좋은 회귀식은 아니라고 볼 수 있습니다.
f비값이 3이고, 유의한 f가 0.04이므로, 귀무가설을 기각하기 때문에, 유의한 회귀식이라고 볼 수 있습니다.
인자들 중에 비만도에 영향을 주는 것이 존재한다고 볼 수 있죠.
아래 표를 확인하면, 나트륨섭취만이 귀무가설을 기각합니다.(제가 빨간 표시를 잘못 칠해놨네요;;;)
즉, 나트륨 섭취가 비만도에 영향을 준다고 볼 수 있습니다.

아래에 데이터를 첨부했습니다.

비만도+회귀분석