R
-
R 기초 26 - 로지스틱 회귀분석(Logistic Regression), underfitting 과 overfitting, train / test split, ROC curveR 2022. 10. 27. 11:11
데이터를 두 개의 그룹으로 분류하는 문제에서 가장 기본적인 방법은 로지스틱 회귀분석이다. 왼쪽이 지금까지 배운 선형회귀로(직선)이다. 로지스틱 회귀분석은 오른 쪽 그래프처럼 곡선으로 표시하기 위해 사용한다. underfitting 과 overfitting 왼쪽은 지나친 단순화로 인해 에러가 많이 발생해 underfitting이라 합니다. 오른쪽은 너무 정확하게 표현한 나머지 training data에 대한 정확도는 좋지만 실제 test에서는 에러가 날 수 있는 상황이라 overfitting이라 합니다. 모델은 과대적합(Overfitting)과 과소적합(Underfitting)이 발생하지 않도록 설계하는 것이 중요합니다. 출처: https://22-22.tistory.com/35 [used to deepl..
-
R 기초 25 - 단순/다중 선형회귀 모델 정리R 2022. 10. 26. 17:41
단순선형회귀 모델 정리 # 단순/다중 선형회귀 모델 작성 후 정략적인 예측 결과 받아보기 head(mtcars) # 연습 1 - 단순선형회귀 # 임의의 마력수를 입력하면 연비를 예측하는 모델 필요 # 변수는 mpg(연비), hp(마력수) cor(mtcars$hp, mtcars$mpg) # -0.7761684 음의 상관관계 (x, y) par(mar = c(1,1,1,1)) plot(mpg ~ hp, data = mtcars, xlab = '마력수', ylab = '연비') # formula 형식으로 사용하려면 이렇게 사용 가능(y ~ x) # 인과관계가 있다고 판단함 model1
-
R 기초 24 - AIC 통계량, stepwise regression, backward(후진소거법), forward(전진선택법), both(단계적 방법), 회귀모델 체크 사항R 2022. 10. 26. 16:44
AIC 통계량 : 모델의 상대적 품질을 평가하는 척도이다. 효과적인 독립변수를 선택할 수 있다. stepwise regression : 단계적으로 모형을 검정하면서 AIC 값을 비교한 후, 가장 적합한 회귀모형을 찾아준다. backward(후진소거법) : 모든 변수를 독립변수로 주고, 기여도가 낮은 것부터 하나씩 제거. forward(전진선택법) : 유익한 변수부터 하나씩 독립변수로 추가. both(단계적 방법) : # AIC 통계량으로 두 모델의 성능 비교 AIC(model1, model2) # df AIC # model1 6 241.6429 # model2 4 237.6565 AIC 값이 더 작으므로 우수한 모델 # stepwise regression : 단계적으로 모형을 검정하면서 AIC 값을 비교..
-
R 기초 23 - 다중회귀분석 (독립변수가 복수), 선형회귀분석의 기존 가정 충족 조건 검정R 2022. 10. 26. 15:46
# 다중회귀분석 : 독립변수가 복수 head(state.x77, 3) colnames(state.x77) # 칼럼 이름 호출 dim(state.x77) # 행열 갯수 호출 50 by 8 str(state.x77) cor(state.x77) # 표준화 states 0.05이므로 선형성 만족 # 등분산성 검정 ncvTest(mfit) # p = 0.18632 > 0.05 등분산성 만족 # 다중공선성 검정 vif(mfit) # 각 값들이 10을 넘으면 다중공선성 문제 발생 1.245282 2.165848 1.345822 2.082547 선형성, 정규성, 독립성, 등분산성, 다중공선성을 검정하는 함수가 있다. 각 검정을 실시해서 p - value 값이 0.05가 넘으면 만족한다는 의미이다. summary(통계 ..
-