ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • R 기초 20 - 단순선형회귀 모델 예제, 회귀분석모형의 적절성을 위한 조건
    R 2022. 10. 25. 17:17

     

    임의의 heigt가 주어졌을 때 미지의 weight를 데이터로 분석해서 예측값을 추측하는 예제

     

    # 단순선형회귀 모델 작성
    head(women, 2)
    summary(women)
    cor(women$height, women$weight) # 0.9954948. 표준화를 하여 -1 ~ 1로 나타낸다. 상관관계인지의 여부 확인
    plot(women$height, women$weight)
    
    # 인과관계가 있다고 가정하고 회귀분석 모델 작성
    mfit <- lm(weight ~ height, data = women) # 절편 구하는 식
    mfit  # 절편 : -87.52, 기울기 : 3.45 
    abline(mfit, col = 'red')
    
    summary(mfit) # 모델 관련 요약 통계량 표시
    # p - value: 1.09le-14 < 0.05 이므로 현재 모델은 유의하다. 인과관계가 있음이 증명
    37.85 * 37.85
    3.45000 / 0.09114
    
    
    # 예측값 구하기 y = wx + b     3.45 * x + -87.51667
    y_hat <- 3.45 * 58 + -87.51667
    y_hat
    # 112.5833
    
    # 한번에 여러개의 예측값 구하기
    y_hat <- predict(mfit, data.frame(height = c(58, 45, 67, 77)))
    y_hat
    # 112.58333  67.73333 143.63333 178.13333
    
    
    # 상관계수 분석
    cor.test(women$height, women$weight) # 0.9954948
    
    
    
    
    <mfit 모델 관련 요약 통계량>
    
    Call:
    lm(formula = weight ~ height, data = women)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -1.7333 -1.1333 -0.3833  0.7417  3.1167 
    
    Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
    (Intercept) -87.51667    5.93694  -14.74 1.71e-09 ***
    height        3.45000    0.09114   37.85 1.09e-14 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 1.525 on 13 degrees of freedom
    Multiple R-squared:  0.991,	Adjusted R-squared:  0.9903 
    F-statistic:  1433 on 1 and 13 DF,  p-value: 1.091e-14

    먼저 표준화를 하여 상관관계인지 여부를 확인(컴퓨터가 결정)한다.

    인과관계(프로그래머가 결정)가 있다면 회귀분석을 실시한다.

    p - value 가 0.05 이므로 이 데이터는 유의하다고 판단한다.

     

     

    표준오차가 크면, 분산의 설명력이 낮다 , 피밸류가 0.05 보다 크다.

     

    표준오차 = 모집단(전체 데이터)과 샘플 데이터(부분 데이터)의 평균의 차

     

    R-squared = 결정계수 , 99.1% 설명하고 있다. (정확도 아니라, 독립변수가 종속변수를 얼마나 잘 설명할 수 있느냐를 본다. 정확도는 클래시피케이션에서 본다) 독립변수와 종속변수가 얼마나 관계가 있는지에 대한 확률.
    독립변수 하나일때,  멀티플 알 스퀘어드
    독립변수  두개 이상일때 , 어드저스티드 알 스퀘어드
    설명력 = 알스퀘어드 = 결정계수 , 1에 가까울 수록 설명을 잘한다는 뜻

     

     

    p-value = '귀무가설(Null hypothesis)이 맞는다고 가정할 때 얻은 결과보다 극단적인 결과(관측 결과)가 나타날 확률'로 정의된다. 일반적으로 p-value < 0.05 혹은 0.01을 기준으로 한다. 계산된 p-value가 기준값보다 작은 경우 귀무가설을 기각하는 것으로 즉, 극단적으로 귀무가설이 일어날 확률이 매우 낮은 상태를 의미한다.

     

     

    개념 정리

    lm() 함수를 사용하여 인과관계가 있다고 생각한 data(독립변수와 종속변수)의 절편과 기울기를 구한다..

    abline() 함수를 사용하여 그래프에 평균 직선을 긋는다. 직선과 실제 값의 차를 잔차라고 하며 cost라고도 한다.

    cost값이 0에 가까울 수록 data 값의 오차가 줄어든다.

    임의의 x에 값을 넣으면 그에 따른 y값(예측값)을 구할 수 있다.

     

     

    단순선형회귀 모델로 data를 선택할 때의 신뢰성을 나타내려면 밑의 조건을 충족해야된다.

     

    회귀분석모형의 적절성을 위한 조건 : 아래의 조건 위배 시에는 변수 제거나 조정을 신중히 고려해야 함.
    1) 정규성 : 독립변수들의 잔차항이 정규분포를 따라야 한다.
    2) 독립성 : 독립변수들 간의 값이 서로 관련성이 없어야 한다.
    3) 선형성 : 독립변수의 변화에 따라 종속변수도 변화하나 일정한 패턴을 가지면 좋지 않다.
    4) 등분산성 : 독립변수들의 오차(잔차)의 분산은 일정해야 한다. 특정한 패턴 없이 고르게 분포되어야 한다.
    5) 다중공선성 : 독립변수들 간에 강한 상관관계로 인한 문제가 발생하지 않아야 한다.

     

     

    위의 조건을 충족한 뒤에 결과 값으로 p - value 값이 0.05 미만이면 신뢰성이 높다.

     

     

     

    동영상 참고!

     

    R로 만든 선형회귀모델

    유튜브 링크 : 작성자 - 박영권R 선형회귀 요약 통계1   https://youtu.be/2SXWL2c9r5I R 선형회귀 요약 통계2   https://youtu.be/L4Ph1an2Jp4  R 다중선형회귀 요약 통계1   https://youtu.be/TIdji6qNdOo  R 

    cafe.daum.net

     

     

     

    댓글

Designed by Tistory.