Python 데이터 분석
-
Python 데이터분석 기초 66 - random함수로 무작위로 데이터를 생성 분석(체질량지수(BMI))Python 데이터 분석 2022. 11. 23. 16:26
""" # BMI : 체질량지수는 자신의 몸무게(kg)를 키의 제곱(m)으로 나눈 값입니다. # 예) print(71 / ((178/100)*(178/100))) # 체질량지수: 22.4 import random random.seed(12) def calc_bmi(h, w): bmi = w/(h/100)**2 if bmi < 18.5: return 'thin' if bmi < 25.0: return 'normal' return 'fat' # print(calc_bmi(178, 71)) fp = open('bmi.csv', 'w') fp.write('height,weight,label\n') # 무작위 데이터 생성 cnt={'thin':0, 'normal':0, 'fat':0 } for i in range..
-
Python 데이터분석 기초 65 - Support Vector Machine(SVM)Python 데이터 분석 2022. 11. 23. 15:11
Support Vector Machine(SVM) 분류와 회귀분석을 위해 주로 사용한다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형분류 모델을 만든다. 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다. SVM은 선형 분류와 더불어 비선형 분류에서도 사용될 수 있다. # Support Vector Machine(SVM) # 분류와 회귀분석을 위해 주로 사용한다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, # SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여..
-
XGBoost로 분류 모델 예시(kaggle.com이 제공하는 'glass datasets')Python 데이터 분석 2022. 11. 23. 14:40
# [XGBoost 문제] # kaggle.com이 제공하는 'glass datasets' # 유리 식별 데이터베이스로 여러 가지 특징들에 의해 7 가지의 label(Type)로 분리된다. # # RI Na Mg Al Si K Ca Ba Fe Type # ... # glass.csv 파일을 읽어 분류 작업을 수행하시오. import numpy as np import pandas as pd from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt import xgboost as xgb from xgboost import plot_importance df = pd.read_csv('../testdata/glass...
-
XGBoost로 분류 모델 예시(산탄데르 은행 고객 만족 여부 분류 모델)Python 데이터 분석 2022. 11. 23. 12:20
# 산탄데르 은행 고객 만족 여부 분류 모델 # label name : TARGET - 0(만족), 1(불만족) import numpy as np import pandas as pd from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt df = pd.read_csv('train.csv', encoding = 'latin-1') print(df.head(3), df.shape) # (76020, 371) print(df.info()) print() print(df['TARGET'].value_counts()) # 0 : 73012, 1 : 3008 unsatified_cnt = df[df['TARGET'] =..
-
Python 데이터분석 기초 64 - XGBoost로 분류 모델 작성, lightgbm로 분류 모델 작성Python 데이터 분석 2022. 11. 23. 10:57
XGBoost로 분류 모델 작성 breast_cancer dataset 사용 pip install xgboost pip install lightgbm 아나콘다에 install 한다. # XGBoost로 분류 모델 작성 # breast_cancer dataset 사용 # pip install xgboost # pip install lightgbm import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer import xgboost as xgb from sklearn.model_selection import train_test_split from lightgbm import LGBMClassifier # xgbo..
-
Python 데이터분석 기초 63 - DecisionTreeRegressor, RandomForestRegressorPython 데이터 분석 2022. 11. 23. 10:09
중요변수 얻을 때는 RandomForestRegressor를 사용하는 것을 추천한다. 그 이외에는 ols를 추천 # import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.tree import DecisionTreeRegressor from sklearn.ensemble import RandomForestRegressor from sklearn.datasets import load_boston from sklearn.metrics import r2_score boston = load_boston() # print(boston.keys()) dfx = pd.DataFrame(boston.data, colum..
-
RandomForest 예제 2 - django를 활용(patient 데이터 사용)Python 데이터 분석 2022. 11. 22. 18:12
url.py from django.contrib import admin from django.urls import path from myapp import views urlpatterns = [ path("admin/", admin.site.urls), path("", views.MainFunc), path("show", views.ShowFunc), path("list", views.ListFunc) ] views.py from django.shortcuts import render import pandas as pd import numpy as np from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection impo..
-
RandomForest 예제 1 - Red Wine quality 데이터Python 데이터 분석 2022. 11. 22. 18:02
import pandas as pd import numpy as np from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split, cross_val_score from sklearn.metrics import accuracy_score df = pd.read_csv('../testdata/winequality-red.csv') print(df.head(3)) print(df.info()) df_x = df.drop(columns = ['quality']) df_y = df['quality'] train_x, test_x, train_y, test_y = train_test_sp..