피어슨 상관계수는 두 변수간의 관련성을 구하기 위해 보편적으로 이용된다. 개념은 다음과 같다.
r = X와 Y가 함께 변하는 정도 / X와 Y가 따로 변하는 정도
r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수 (coefficient of determination) 는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.
Pearson 의 상관계수(sample correlation coefficient)는 두 변수 x, y 가 선형관계라면 다음과 같이 계산된다.
r 값의 범위 -1 ≤ r ≤ +1 이며, r=1 은 두 변수 사이에 완전한 상관관계에 있는 경우이다. r 값이 0 일 때(xy = 0 일때 생긴다) 두 변수는 완전히 독립이다.
일반적으로
r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.3과 -0.7 사이이면, 뚜렷한 음적 선형관계,
r이 -0.1과 -0.3 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
일반적으로
0.90 ≤ r ≤ 0.95 : 보통
0.95 ≤ r ≤ 0.99 : 양호
0.99 ≤ r : 훌륭한 직선성을 나타냄
Pearson Correlation Coefficient는 이러한 두개의 변수(Variable)가 Linearly
Correlated인 경우 적용가능하며, Linearly Non Separable한 경우는 적용 불가능하다.
RECENT COMMENT