-
R 기초 16 - 데이터 전처리R 2022. 10. 24. 15:45
데이터 전처리(data preprocessing )가 필요한 이유는 무엇일까.
우수한 예측 분석 결과는 잘 정돈된 데이터에서 출발한다. 즉, 정교한 예측 분석 모델을 얻기 위해서는 수집된 데이터에 누락된 부분이나, 오차, 또는 데이터 처리에 있어서 가공할 부분은 없는지를 살펴보아야 한다.
데이터 전처리 종류?
데이터 전처리의 종류에는 데이터 클리닝(cleaning), 데이터 통합(integration) , 데이터 변환(transformation), 데이터 축(reduction), 데이터 이산화(discretization) 등이 존재한다. 데이터의 결측치 및 이상치를 확인하거나 제거하고 불일치되는 부분을 일관성 있는 데이터의 형태로 전환 하기도 하는 이 전 과정을 데이터의 전처리라고 일컫는다.
# 데이터 전처리(data preprocessing )가 필요한 이유는 무엇일까. # 우수한 예측 분석 결과는 잘 정돈된 데이터에서 출발한다. # 즉, 정교한 예측 분석 모델을 얻기 위해서는 수집된 데이터에 누락된 부분이나, 오차, # 또는 데이터 처리에 있어서 가공할 부분은 없는지를 살펴보아야 한다. # 데이터 전처리 종류? # 데이터 전처리의 종류에는 데이터 클리닝(cleaning), 데이터 통합(integration) , # 데이터 변환(transformation), 데이터 축소(reduction), 데이터 이산화(discretization) 등이 존재한다. # 데이터의 결측치 및 이상치를 확인하거나 제거하고 불일치되는 부분을 일관성 있는 # 데이터의 형태로 전환 하기도 하는 이 전 과정을 데이터의 전처리라고 일컫는다. ds <- read.csv("testdata/dataset.csv", header = T) dim(ds) # 행렬 출력 head(ds, 2) # 앞에거 2개만 호출 View(ds) # 표 호출 table(ds$gender) # 행열 총 개수 한줄로 출력 attributes(ds) # 행열 총 개수 모두 출력 names(ds) # name만 출력 str(ds) ds$gender # gender만 출력 ds['gender'] # gender만 출력 ds[c('gender','job')] # gender와 job 만 출력 ds[c(2, 3, 5)] # 2번째 3번째 5번째 위치의 것만 출력 # 결측치(NA, Missing value, Not Available) summary(ds$price) sum(ds$price) # NA가 들어있어서 계산이 안 됨 sum(ds$price, na.rm = T) # NA를 빼고 계산 price2 <- na.omit(ds$price) # NA만 빼고 변수명에 넣기 sum(price2) length(price2) # NA 값을 뺀 숫자가 출력된다. # ds$price[is.na(ds$price)] <- mean(ds$price) # NA를 평균으로 대체 ds$price[is.na(ds$price)] <- 0 # NA를 0으로 대체 summary(ds$price) # NA를 0으로 대체하고 평균값 호출 # 극단치(outlier) : 비정상으로 분포를 벗어난 값 gender <- ds$gender gender table(gender) hist(gender) # 그래프 표시 # gender 변수(열, 칼럼, 차원) 정제 data <- subset(ds, ds$gender == 1 | ds$gender == 2) # 성별이 1, 2인 경우에만 호출 length(data$gender) dim(data) table(data$gender) # 1, 2 별로 나눈 값이 몇개인지 출력 str(data) # price 변수 ds$price length(ds$price) plot(ds$price) boxplot(ds$price) summary(ds$price) #최소값, 중앙값, 최댓값을 호출 (-457 ~ 675) 극단치를 얼마로 할까에 대한 판단이 필요하다 data2 <- subset(ds, ds$price >= 2 & ds$price <= 8) length(data2$price) plot(data2$price) # 점 그래프 출력 hist(data2$price) # 막대그래프 출력 # 데이터 가공은 많은 작업이 있다...
'R' 카테고리의 다른 글
R 기초 18 - 통계분석, 기술통계, 표준화, 정규화, 변동계수, 공분산, 상관계수 (0) 2022.10.25 R 기초 17 - 정형 데이터 처리(RDBMS 연동) SQLite, MariaDB 연동 (0) 2022.10.24 R 기초 15 - 시각화 - 그래프(막대, 점, 원형), (boxplot, hist) (0) 2022.10.24 R 기초 14 - 웹(멜론)에서 가사 불러오기(웹을 이용한 데이터 가져오기) XML, json (0) 2022.10.24 R 기초 13 - 내장함수(최소값, 평균값, 분산... 등), 사용자 정의 함수 (0) 2022.10.24