분류 전체보기
-
MLP(multi-layer perceptron) - 다층 신경망 예제, breast_cancer dataset, 표준화Python 데이터 분석 2022. 11. 25. 14:52
# MLP : breast_cancer dataset from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() print(cancer.keys()) x = cancer['data'] y = cancer['target'] print(cancer.target_names) # ['malignant' 'benign'] from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 1) print(x_train.shape, x_test.shape, y_train.shape..
-
Python 데이터분석 기초 72 - MLP(multi-layer perceptron) - 다층 신경망Python 데이터 분석 2022. 11. 25. 13:07
# MLP(다층 신경망) # 논리회로로 실습 import numpy as np from sklearn.neural_network import MLPClassifier from sklearn.metrics import accuracy_score feature = np.array([[0, 0],[0, 1],[1, 0],[1, 1]]) print(feature) # label = np.array([0, 0, 0, 1]) # and # label = np.array([0, 1, 1, 1]) # or label = np.array([0, 1, 1, 0]) # xor, 세포체(Node)가 하나인 경우는 예측이 잘 안 된다. # model = MLPClassifier(hidden_layer_sizes=30, solv..
-
Python 데이터분석 기초 71 - Perceptron(퍼셉트론, 단층신경망)Python 데이터 분석 2022. 11. 25. 12:42
Perceptron(퍼셉트론, 단층신경망) Perceptron(퍼셉트론, 단층신경망)이 학습할 때 주어진 데이터를 학습하고 에러가 발생한 데이터에 기반하여 Weight(가중치) 값을 기존에서 새로운 W값으로 업데이트 시켜주면서 학습. input의 가중치합에 대해 임계값을 기준으로 두 가지 output 중 한 가지를 출력하는 구조. # Perceptron(퍼셉트론, 단층신경망)이 학습할 때 주어진 데이터를 학습하고 에러가 발생한 데이터에 기반하여 Weight(가중치) 값을 기존에서 # 새로운 W값으로 업데이트 시켜주면서 학습. input의 가중치합에 대해 임계값을 기준으로 두 가지 output 중 한 가지를 출력하는 구조 # 논리회로로 실습 import numpy as np from sklearn.line..
-
Python 데이터분석 기초 70 - K-NN (K-Nearest Neighber)Python 데이터 분석 2022. 11. 25. 10:23
breast_cancer dataset # KNN from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier import matplotlib.pyplot as plt cancer = load_breast_cancer() x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify = cancer.target, random_state = 66) print(x_train.shape, x_test.sha..
-
Python 데이터분석 기초 69 - K-NN (K-Nearest Neighber)Python 데이터 분석 2022. 11. 25. 10:05
• 장점 : 알고리즘이 간단해 구현이 쉽다. 수치 기반 데이터 분류 작업에서 성능이 좋다. • 단점 : 학습 데이터의 양이 많으면 분류 속도가 느려진다. 차원(벡터)의 크기가 크면 계산량이 많아진다. 아웃라이어의 영향을 많이 받는다. 단위의 차이가 크면 성능이 낮다. 과적합이 발생활 확률이 높다. K-NN은 스케일링을 추천한다. KNN : K최근접 이웃 알고리즘 레이블이 있는 데이터를 사용하여 분류 작업을 하는 알고리즘이다. 데이터로부터 거리가 가까운 k개의 다른 데이터의 레이블을 참조하여 분류한다. 대개의 경우에 유클리디안 거리 계산법을 사용하여 거리를 측정하는데, 벡터의 크기가 커지면 계산이 복잡해진다. # KNN : K최근접 이웃 알고리즘 # 레이블이 있는 데이터를 사용하여 분류 작업을 하는 알고리..
-
NaiveBayes 분류모델 - GaussanNB 예제Python 데이터 분석 2022. 11. 24. 18:14
import pandas as pd from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB from sklearn.metrics import accuracy_score from sklearn import metrics from sklearn.preprocessing import LabelEncoder from xgboost import plot_importance import matplotlib.pyplot as plt import xgboost as xgb df = pd.read_csv('../testdata/mushrooms.csv') print(df.head(3)) print(df.i..
-
날씨 정보로 나이브에즈 분류기 작성 - 비 예보Python 데이터 분석 2022. 11. 24. 18:10
날씨 정보로 나이브에즈 분류기 작성 - 비 예보 # 날씨 정보로 나이브에즈 분류기 작성 - 비 예보 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB from sklearn.metrics import accuracy_score from sklearn import metrics df = pd.read_csv('../testdata/weather.csv') print(df.head(3)) print(df.info()) x = df[['MinTemp', 'MaxTemp', 'Rainfall']] # y = df['RainTomorrow'].apply(la..
-
Python 데이터분석 기초 69 - NaiveBayes 분류모델Python 데이터 분석 2022. 11. 24. 15:17
나이브 베이즈는 분류기를 만들 수 있는 간단한 기술로써 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련된다. 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정한다. 예를 들어, 특정 과일을 사과로 분류 가능하게 하는 특성들 (둥글다, 빨갛다, 지름 10cm)은 나이브 베이즈 분류기에서 특성들 사이에서 발생할 수 있는 연관성이 없음을 가정하고 각각의 특성들이 특정 과일이 사과일 확률에 독립적으로 기여 하는 것으로 간주한다. 조건부 확률 P(Label|Feature)사후확률 = P(Feature|Label)가능도 * P(Label) / P(Feature) # 나이브 베이즈는 분류기를 만들 수 있는 간단한 기술로써 단일 알고리즘을 통한 훈련이 ..