분류 전체보기
-
Python 데이터분석 기초 68 - SVM으로 이미지 분류Python 데이터 분석 2022. 11. 24. 13:16
SVM으로 이미지를 분석하였다. 세계 정치인 중 일부 사진을 사용 주성분 분석으로 이미지 차원 축소, train / test split, 시각화를 실시 # SVM으로 이미지 분류 # 세계 정치인 중 일부 사진을 사용 from sklearn.svm import SVC from sklearn.decomposition import PCA import matplotlib.pyplot as plt from sklearn.datasets import fetch_lfw_people from sklearn.pipeline import make_pipeline faces = fetch_lfw_people(min_faces_per_person = 60, color = False) # color는 True가 컬러, Fals..
-
Python 데이터분석 기초 67 - 특성공학 기법 중 차원축소(PCA - 주성분 분석)-iris datasetPython 데이터 분석 2022. 11. 24. 11:17
특성공학 기법 중 차원축소(PCA - 주성분 분석) n개의 관측치와 p개의 변수로 구성된 데이터를 상관관계가 최소화된 k개의 변수로 축소된 데이터를 만든다. 데이터의 분산을 최대한 보존하는 새로운 축을 찾고 그 축에 데이터를 사영시키는 기법. 직교. 목적 : 독립변수(x, feature)의 갯수를 줄임. 이미지 차원 축소로 용량을 최소화 # 특성공학 기법 중 차원축소(PCA - 주성분 분석) # n개의 관측치와 p개의 변수로 구성된 데이터를 상관관계가 최소화된 k개의 변수로 축소된 데이터를 만든다. # 데이터의 분산을 최대한 보존하는 새로운 축을 찾고 그 축에 데이터를 사영시키는 기법. 직교. # 목적 : 독립변수(x, feature)의 갯수를 줄임. 이미지 차원 축소로 용량을 최소화 # iris dat..
-
Support Vector Machine(SVM) 예제 - 심장병 환자 데이터Python 데이터 분석 2022. 11. 23. 18:33
# [SVM 분류 문제] 심장병 환자 데이터를 사용하여 분류 정확도 분석 연습 # https://www.kaggle.com/zhaoyingzhu/heartcsv # https://github.com/pykwon/python/tree/master/testdata_utf8 Heartcsv # # Heart 데이터는 흉부외과 환자 303명을 관찰한 데이터다. # 각 환자의 나이, 성별, 검진 정보 컬럼 13개와 마지막 AHD 칼럼에 각 환자들이 심장병이 있는지 여부가 기록되어 있다. # dataset에 대해 학습을 위한 train과 test로 구분하고 분류 모델을 만들어, 모델 객체를 호출할 경우 정확한 확률을 확인하시오. # 임의의 값을 넣어 분류 결과를 확인하시오. # 정확도가 예상보다 적게 나올 수 있음..
-
Python 데이터분석 기초 66 - random함수로 무작위로 데이터를 생성 분석(체질량지수(BMI))Python 데이터 분석 2022. 11. 23. 16:26
""" # BMI : 체질량지수는 자신의 몸무게(kg)를 키의 제곱(m)으로 나눈 값입니다. # 예) print(71 / ((178/100)*(178/100))) # 체질량지수: 22.4 import random random.seed(12) def calc_bmi(h, w): bmi = w/(h/100)**2 if bmi < 18.5: return 'thin' if bmi < 25.0: return 'normal' return 'fat' # print(calc_bmi(178, 71)) fp = open('bmi.csv', 'w') fp.write('height,weight,label\n') # 무작위 데이터 생성 cnt={'thin':0, 'normal':0, 'fat':0 } for i in range..
-
Python 데이터분석 기초 65 - Support Vector Machine(SVM)Python 데이터 분석 2022. 11. 23. 15:11
Support Vector Machine(SVM) 분류와 회귀분석을 위해 주로 사용한다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형분류 모델을 만든다. 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다. SVM은 선형 분류와 더불어 비선형 분류에서도 사용될 수 있다. # Support Vector Machine(SVM) # 분류와 회귀분석을 위해 주로 사용한다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, # SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여..
-
XGBoost로 분류 모델 예시(kaggle.com이 제공하는 'glass datasets')Python 데이터 분석 2022. 11. 23. 14:40
# [XGBoost 문제] # kaggle.com이 제공하는 'glass datasets' # 유리 식별 데이터베이스로 여러 가지 특징들에 의해 7 가지의 label(Type)로 분리된다. # # RI Na Mg Al Si K Ca Ba Fe Type # ... # glass.csv 파일을 읽어 분류 작업을 수행하시오. import numpy as np import pandas as pd from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt import xgboost as xgb from xgboost import plot_importance df = pd.read_csv('../testdata/glass...
-
XGBoost로 분류 모델 예시(산탄데르 은행 고객 만족 여부 분류 모델)Python 데이터 분석 2022. 11. 23. 12:20
# 산탄데르 은행 고객 만족 여부 분류 모델 # label name : TARGET - 0(만족), 1(불만족) import numpy as np import pandas as pd from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt df = pd.read_csv('train.csv', encoding = 'latin-1') print(df.head(3), df.shape) # (76020, 371) print(df.info()) print() print(df['TARGET'].value_counts()) # 0 : 73012, 1 : 3008 unsatified_cnt = df[df['TARGET'] =..
-
Python 데이터분석 기초 64 - XGBoost로 분류 모델 작성, lightgbm로 분류 모델 작성Python 데이터 분석 2022. 11. 23. 10:57
XGBoost로 분류 모델 작성 breast_cancer dataset 사용 pip install xgboost pip install lightgbm 아나콘다에 install 한다. # XGBoost로 분류 모델 작성 # breast_cancer dataset 사용 # pip install xgboost # pip install lightgbm import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer import xgboost as xgb from sklearn.model_selection import train_test_split from lightgbm import LGBMClassifier # xgbo..