R
-
R 기초 36 - # 비계층적 군집분석R 2022. 10. 28. 11:38
# 비계층적 군집분석 # K-Means 군집분석을 가장 많이 사용 : K(군집 수)를 얼마? data
-
R 기초 34 - 머신러닝의 종류(지도 학습, 비지도 학습, 강화 학습)R 2022. 10. 28. 09:45
지도 학습(Supervised Learning) 지도 학습이란 말 그대로 정답이 있는 데이터를 활용해 데이터를 학습시키는 것이다. 입력 값(X data)이 주어지면 입력값에 대한 Label(Y data)를 주어 학습시키는 것을 말한다. 예를 들어 인물 사진과 동물 사진을 주어 이건 사람이고 이건 동물이야라고 알려주는 학습 방식이다. 따라서 기계가 정답을 잘 맞췄는지 아닌지를 쉽게 알 수 있다. 비지도 학습(Unsupervised Learning) 비지도 학습이란 지도 학습과 다르게 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화 하여 새로운 데이터에 대한 결과를 예측하는 것이다. 라벨링 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 조금 더 난이도가 있다. 강화 학습(Re..
-
R 기초 32 - K-최근접 이웃(K-Nearest Neighbor, KNN)R 2022. 10. 27. 16:24
# K-최근접 이웃(K-Nearest Neighbor, KNN) # 분류와 회귀 모두 더 가까운 이웃일수록 더 먼 이웃보다 평균에 더 많이 기여하도록 이웃의 기여에 # 가중치를 주고 분류 및 회귀를 하는 모델 install.packages("ggvis") library(ggvis) library(class) # 랜덤을 위한 시드 값 세트 set.seed(1234) # 트레이닝-테스트로 67%, 33%씩 나눈다. random_samples
-
R 기초 31 - 서포트 벡터 머신(SVM)R 2022. 10. 27. 16:01
# 서포트 벡터 머신(이하 svm)은 결정 경계(Decision Boundary), 즉 분류를 위한 기준 선을 정의하는 모델이다. # 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류 과제를 수행할 수 있게 된다. # kernel trick을 사용하여 저차원에서 분류가 어려운 고차원으로 변경 후 분류 및 예측을 할 수 있다. # 분류 경계선(hyper panel) 마진을 최대화 하기위해 데이터의 일부(support vector)가 참여. library(e1071) dim(iris) set.seed(123) idx