본문 바로가기

통계/통계지식

[통계] 상관계수란? 결정계수란? 또 수정결정계수란?

 

회귀분석과 상관분석의 목적

회귀분석은 독립변수를을 가지고 종속변수를 설명하는게 목적이고,

상관분석은 두 변수의 직선관계 정도를 보는것이다.

 

때문에 상관분석에 경우, 둘 변수 중 어떤 변수가 종속변수(설명 당하는)이고 독립변수(설명하는)인지는 별로 관심의 대상이 아니다.

 

회귀분석이란?  v

더보기

회귀분석(regression analysis)은 통계학에서 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 인과관계에 따른 수학적 모델인 선형적 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수를 예측한다. 또한 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석 방법이다.

1개의 종속변수와 1개의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(Simple Regression Analysis), 1개의 종속변수와 여러 개의 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(Multiple Regression Analysis)이라고 한다. 

 

회귀분석은 다음의 가정을 바탕으로 한다.
1. 잔차(Residuals)는 모든 독립변수 값에 대하여 동일한 분산을 갖는다.
2. 잔차의 평균은 0이다.
3. 수집된 데이터의 분산은 정규분포를 이루고 있다.
4. 독립변수 상호간에는 상관관계가 없어야 한다.
5. 시간에 따라 수집한 데이터들은 잡음의 영향을 받지 않아야 한다.
6. 독립변수들간에 상관관계가 나타나는 경우 다중공선성문제라고 한다.

 


 

 

 

결정계수와 상관계수 ( + 수정결정계수)

결정계수(Coefficient of Determination,R2)란

회귀분석에서 나오는 개념으로 모형(즉 독립변수들)이 종속변수를 얼마나 설명하냐를 보여주는 계수이며 회귀직선의 적합도(goodness-of-fit)를 평가하거나 종속변수에 대한 설명변수들의 설명력을 알고자 할 때 결정계수(R sqaured, coefficient of determination))를 이용한다.

 

R^2로 표기한다. (특정 분석 솔루션에서는 test score로 표기하는걸 본적이 있다.)

- X와 Y간의 상관관계가 클수록 R2의 값은 1에 가까워진다.

- 즉, R2값이 0에 가까워 질수록 회귀선은 쓸모가 없고 값이 클수록(R2≥0.65) 쓸모있는 회귀식이라고 본다.

- 총변동중에서 회귀선에 의해 설명이 되는 변동이 차지하는 비율을 의미한다.

  예를들어 R2=0.40인 경우 종속변수(Y)의 변동은 독립변수(X)의 변동에 의해 40%정도 설명된다고 해석된다.

 

결정계수(R2) 식

 

 

 

상관계수(r)란

두 변수의 상관성을 나타내는 척도이다.

 

- 항상 -1과 1 사이의 값을 가지며( -1 ≤ r ≤ +1), 계수 값이 -1 또는 1일때 두 변수가 완전한 직선관계임을 뜻한다.

- 1일때는 양의 상관관계, -1일때는 음의 상관관계를 의미한다. (0일때는 상관관계가 없다고 본다)

  **주의해야 할 점 : 은 두 변수 간에 단순 관련성이 아닌 선형적인 관계를 나타낸다는 것이므로

  상관계수 값이 0에 가까운 값을 갖을지라도 두 변수 간에 비선형적인 관계가 있을 수 있다.

- │r│ ≥ 0.65 일때 의미가 있다고 본다.

- 점들이 직선에 얼마나 모여있는가를 나타낸다.

- 이상점이 있을 경우 상관계수에 영향이 미친다.

 

상관계수(R) 식 

 


회귀분석 중 독립변수 하나로 분석을 시행하는 경우, y= a + b*x 에서 나오는 결정계수는 x, y의 상관계수의 제곱이다. 즉, 단순회귀의 경우 "상관계수의 제곱 = 결정계수의 제곱"가되는것이다.

 

다중회귀의 경우  y = a + b1*x1 + b2*x2 에서 나오는 결정계수는 독립변수들(x1, x2)이 y를 얼마나 설명하냐를 나타낸다. 따라서 이 경우의 상관분석은 (y, x1)의 상관계수와 (y, x2)의 상관계수를 각각 구해야한다.


 

수정결정계수(adjusted coefficient of determination)

결정계수는 독립변수 개수가 많아질수록 그 값이 커지게 된다. 따라서 종속변수의 변동을 별로 설명해 주지 못하는 변수가 모형에 추가된다고 하더라도 결정계수값이 커질 수 있다. 

 

 

 

이러한 문제를 보정한 것이 수정결정계수이다.  수정결정계수는 표본의 크기와 독립변수의 수를 고려하여 계산한다.

때문에 단순회귀분석을 하는 경우에는 일반 결정계수를 사용하면 되지만, 다중회귀분석을 수행하는 경우에는 수정된 결정계수를 함께 고려하는 것이 좋다!(= 독립변수가 2개 이상이면 수정결정계수를 본다는 말.)

 

 

수정결정계수 식

 

- 결정계수는 상향편의 된 추정치 이므로 표본 결정계수의 값은 항상 모집단의 
   결정계수보다 클 수 밖에 없음. 따라서, 보다 정확한 추정치를 얻기 위해서는 
   수정결정계수를 사용해야 함.
- 수정결정계수의 값은 결정계수보다는 작고 때에 따라서는 음의 값도 나타날 수 있음
- 표본의 크기가 200개 이상일 때는 두 결정계수의 차이가 미미함.
- 표본이 200개 미만일 때는 반드시 수정결정계수를 고려해야 함. (논문 등 보고서에는 반드시 표기할것으로 강조된다!)