반응형 R언어8 R언어: 공분산, 상관계수, 상관분석 공분산 2개의 확률변수의 상관정도 X의 증가 할 때 Y가 감소하는지 증가하는지 정도를 측정하는 방법 cov(X, Y) = E[ (X-E[x]) (Y-E[Y]) ] : x의 분산과 y의 분산을 곱한것의 평균 = E[XY] - E[X]E[Y] 상관계수 두 변수간에 어떤 선형적 또는 비선형적 관계 공분산을 정규화한 값 - 각 표준편차로 나눠줌 cor(X, Y) = cov(X, Y) / 𝜎(𝑋) 𝜎(𝑌) cov(X, Y) 의 절댓값귀무가설 기각, 대립가설 채택 , 상관계수가 0.825로 1에 가까움 결론: attiude에서 평가가 높을수록 불평이 높다. rating이 높을수록 complaints가 높다. +회귀분석 독립변수의 변화에 따른 종속변수에 변화를 분석 단순회귀분석: 한개의 독립변수와 한개의 종속변수 간.. 2019. 11. 29. R언어: T분포-단일표본, 독립표본, 대응표본 T검정: 모집단의 분산이나 표준편차 모를때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준표차를 통하여 검정하는 방법. 두 집단의 속성을 비교할 때 속성의 평균 차이에 근거해 판단을 함. 가정 조건 종소변수는 양적 변수 모집단의 분포는 정규분포를 따름 모집단의 분산과 표준편차는 모른다. 귀무가설 : 두 집단간 평균 차이가 없다. m1=m2 대립가설 : 두 집단의 평균에 차이가 있다. m1>m2 or m1 2019. 11. 23. R언어: 분산분석 분산분석(ANOVA) 두 개 이상의 다수의 집단을 비교하고자 할때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교--확률분포 F분포 사용 F분포 두 확률변수가 각각 자유도를 가지고, 서로 독립인 카이제곱 분포를 따른다고 할때 분산분석의 종류 : 종속변수와 독립변수의 수에 따라 분산분석 종류바뀜 단일변량분산분석 일원분산분석 이원분산분석 다변량분산분석 사후분석 : Duncan, Tkey, Bonferroni, Scheffe 독립변수 1개 + 종속변수 1개 집단간종속변수의 평균차이를 분석 전제조건 -독립성: 각 집단은 서로 독립적 -정규성: 각 집단은 정규분포 -불편성: 각 집단은 비슷한 분산 귀무가설: 평균이 모두 같다. 총 편차=관측치-전체평균=집단 간 편차+집단 내 편.. 2019. 11. 21. R언어: 가설검정, 자유도, 교차분석-카이제곱검정 가설검정 대립가설(연구자의 주장), 귀무가설(연구자 주장과 반대되는 모든 가설) 귀무가설에 대응하는 확률분포 설정하고 그것이 기각영역에 속하면 대립가설 채택, 아니면 귀무가설 채택 ex. 대립가설: 165이다. 귀무가설: 165보다 작거나 165보다 크다. 자유도 (df, degree of freedom) 표본을 구성하고 있는 개별 요소 중 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소의 수 ex. 자연수 1~10에서 평균이 5되도록 표본 s5개 뽑는다, ->표본 4개는 자유롭게 정할 수 있으나, 마지막은 평균에 밪도록 조절해서 정해진다. 즉, 4개는 독립변수, 1개는 종속변수 ->4의 자유도를 가진다. 교차분석 카이제곱검정 두 질적변수 간의 상관관계를 측정하는 통계적 기법으로 관찰빈도(조사결과.. 2019. 11. 19. R언어: 상관계수, 확률분포, 표본추출... 공분산(Covariance) 두 변수가 함께 변하는지 정도를 측정하기 위한 것으로 x, y변수에서 x라는 변수가 증가할때 y라는 변수가 함께 증가/감소하는지 정도를 측정하는 것 그러나 공분산의 범위가 무한대라 변형해 범위가 -1 ~ 1인 상관계수를 사용. cov(x변수, y변수) 상관계수(Correlation coefficient) 공분산을 x변수의 표준편차*y변수의 표준편차로 나눠준다. -1 ~ 1사이의 값. +값이 나오면 정적상관(ex.증가시 증가), -값이 나오면 부적상관(ex.증가시 감소) 절댓값 0~0.2 : 약한 상관, 0.3~0.5 : 중간, 0.6~0.9 : 강한 상관 cor(x변수, y변수) skewness-> 분포가 중앙에서 치우친 정도 kurtosis-> 분포의 뾰족한 정도. 중앙에 .. 2019. 9. 28. R언어 최대/소값, 최빈값, 사분위범위, 평균, 분산, 표... 최소값 min(x) 최대값 max(x) 최소값과 최대값을 나타내줌 range(x) 최빈값 x = c(' a','a','a','b','b','c') table(x) 일떄 중앙값 median(x) 사분위수(quantile) 중앙값이 50% 에 대응 되는 값인 것을 고려하여 25%, 50%, 75% 의 값을 이야기함 type 2의 방식 사분위범위(IQR) 사분위값 중 25%, 75% 값을 활용한 범위로 중앙값을 중심으로 좌우 25% 범위의 데이터를 포함한 구간 이다. 곧 , 전체 중 50% 데이터가 있는 범위를 뜻하며 이 구간의 길이를 말함 7-3=4 평균 mean(x) 분산 var(x) 표준편차 sd(x)=sqrt(vqr(x)) 도수분포표 tanle() 막대그래프 barplot(table()) : 보통 범주.. 2019. 9. 22. 이전 1 2 다음 반응형