분류 전체보기
-
자바 기초 1 - 자바의 특징Java 2022. 10. 24. 18:05
자바란? 1995년 썬 마이크로시스템즈에서 발표한 프로그래밍 언어이다. C++에 비해 메모리와 CPU를 많이 사용해 윈도우 프로그래밍 언어로 부적합했지만, 인터넷이 활성화되며 웹 애플리케이션 구축 언어로 급부상했다. 초기의 자바는 가전 제품에 탑재할 언어로 개발되었지만, 현재는 엔터프라이즈 기업환경에서 실행되는 서버 애플리케이션을 개발하는 중추적인 언어이다. 자바의 특징 1. 높은 이식성 서로 다른 실행 환경의 시스템 간에 프로그램을 옮겨 실행할 수 있는 것이다. 윈도우에서 실행하는 프로그램이 리눅스에서도 실행할 수 있다는 것. 다른 실행 환경에서 실행하려면 대부분의 프로그램은 소스 파일을 수정하고, 재 컴파일 과정을 거쳐야 하지만 자바로 개발된 프로그램은 JRE(Java Runtime Environme..
-
R 기초 17 - 정형 데이터 처리(RDBMS 연동) SQLite, MariaDB 연동R 2022. 10. 24. 17:13
RDBMS 를 사용하기 위해서는 java가 다운되어 있어야된다. 또한 환경변수에 등록해놔야 된다. # 정형 데이터 처리 : RDBMS와 연동 # RJDBC api를 사용 install.packages("rJava") # install install.packages("DBI") # install install.packages("RJDBC") # install # Sys.setenv(JAVA_HOME="c:/자바 설치 경로 입력") 근데 굳이 설정 안 해도 된다. library(rJava) library(DBI) library(RJDBC) # 개인용 DB : Sqlite와 연동 install.packages("RSQLite") library(RSQLite) mtcars # 자동차 정보 dataset 기본용 ..
-
R 기초 16 - 데이터 전처리R 2022. 10. 24. 15:45
데이터 전처리(data preprocessing )가 필요한 이유는 무엇일까. 우수한 예측 분석 결과는 잘 정돈된 데이터에서 출발한다. 즉, 정교한 예측 분석 모델을 얻기 위해서는 수집된 데이터에 누락된 부분이나, 오차, 또는 데이터 처리에 있어서 가공할 부분은 없는지를 살펴보아야 한다. 데이터 전처리 종류? 데이터 전처리의 종류에는 데이터 클리닝(cleaning), 데이터 통합(integration) , 데이터 변환(transformation), 데이터 축(reduction), 데이터 이산화(discretization) 등이 존재한다. 데이터의 결측치 및 이상치를 확인하거나 제거하고 불일치되는 부분을 일관성 있는 데이터의 형태로 전환 하기도 하는 이 전 과정을 데이터의 전처리라고 일컫는다. # 데이터 ..
-
R 기초 13 - 내장함수(최소값, 평균값, 분산... 등), 사용자 정의 함수R 2022. 10. 24. 11:33
# 함수 # 내장 함수 seq(0, 5, by = 1.5) # 0부터 5까지 1.5씩 늘어나는 함수 set.seed(123) rnorm(10, mean = 0, sd = 1) # 정규분포를 따르는 난수 hist(rnorm(5000, mean = 0, sd = 1)) # 표준정규분포 runif(10, min = 0, max = 100) hist(runif(5000, min = 0, max = 100)) # 균등분포 sample(0:10, 5) vec
-
R 기초 12 - 평균값, 중앙값, 최빈값, 분산, 표준편차R 2022. 10. 24. 11:20
평균값 = 변량 전체의 합을 총 개수로 나눈 값이다. 중앙값 = 말 그대로 중앙에 있는 값이다.(2, 3, 4, 5, 6, 7, 8, 9 중의 5를 말한다.) 최빈값 = 가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값이다.(1, 3, 6, 6, 6, 7, 7, 12, 12, 17의 최빈값은 6이다. ) 분산 = 관측값에서 산술평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 모분산(population variance) = 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.(Python) 표본 분산(sample variance) = 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n−1로 나눈 것이다.(R)..
-