본문 바로가기
R언어

R언어: 공분산, 상관계수, 상관분석

by socialcomputer 2019. 11. 29.
반응형

공분산

2개의 확률변수의 상관정도

X의 증가 할 때 Y가 감소하는지 증가하는지 정도를 측정하는 방법

 

cov(X, Y) = E[ (X-E[x]) (Y-E[Y]) ] : x의 분산과 y의 분산을 곱한것의 평균

           = E[XY] - E[X]E[Y]

 

상관계수

두 변수간에 어떤 선형적 또는 비선형적 관계

공분산을 정규화한 값 - 각 표준편차로 나눠줌

cor(X, Y) = cov(X, Y) / 𝜎(𝑋) 𝜎(𝑌)

cov(X, Y) 의 절댓값<=1

 절댓값이 1에 가까울수록 직선(상관이 있다)

0에 가까울수록 퍼져있음

+값일 수록 비례

-값일 수록 반비례

 

 

 

증명

 

 

 

 

 

 

 

 

 

 

상관분석 

변순간의 관계의 밀접한 정도(상관관계)를 분석

T분포 사용 t=r 루트 n-2 / 1-r^2

 귀무가설 - 두 변수 간에는 상관이 없다.

 대립가설 - 두 변수 간에는 상관이 있다. 

 

EX. 

plot(attitude)

cov(attitude)

cor(attitude)

cor.test(attitude$rating, attitude$complaints)

p-value가 0.5이상->귀무가설 기각, 대립가설 채택

, 상관계수가 0.825로 1에 가까움

결론: attiude에서 평가가 높을수록 불평이 높다. rating이 높을수록 complaints가 높다. 

 

 

+회귀분석

독립변수의 변화에 따른 종속변수에 변화를 분석

단순회귀분석: 한개의 독립변수와 한개의 종속변수 간의 관계를 직석으로 표현

다중회귀분석: 2개 이상의 독립변수와 한개의 종속변수 간의 관계를 직선으로 표현

반응형

댓글