Python 데이터 분석
-
Python 데이터분석 기초 62 - Random forest 예제(titanic)Python 데이터 분석 2022. 11. 22. 14:59
# titanic dataset으로 LogisticRegression, DecisionTree, RandomForest 분류 모델 비교 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.metrics imp..
-
Python 데이터분석 기초 61 - Random forestPython 데이터 분석 2022. 11. 22. 12:23
Random forest는 ensemble(앙상블) machine learning 모델입니다. 여러개의 decision tree를 형성하고 새로운 데이터 포인트를 각 트리에 동시에 통과시키며, 각 트리가 분류한 결과에서 투표를 실시하여 가장 많이 득표한 결과를 최종 분류 결과로 선택합니다. Bagging 방식을 사용 Titanic dataset을 사용 # Random forest는 ensemble(앙상블) machine learning 모델입니다. # 여러개의 decision tree를 형성하고 새로운 데이터 포인트를 각 트리에 동시에 통과시키며, # 각 트리가 분류한 결과에서 투표를 실시하여 가장 많이 득표한 결과를 최종 분류 결과로 선택합니다. # Bagging 방식을 사용 # Titanic data..
-
Python 데이터분석 기초 60 - Ensemble LearningPython 데이터 분석 2022. 11. 22. 10:45
Ensemble Learning : 개별적인 여러 모델들을 모아 종합적으로 취합 후 최종 분류 결과를 출력 종류로는 voting, baggin, boosting 방법이 있다. # Ensemble Learning : 개별적인 여러 모델들을 모아 종합적으로 취합 후 최종 분류 결과를 출력 # 종류로는 voting, baggin, boosting 방법이 있다. # breast_cancer dataset 사용 # LogisticRegressoin, DecisionTree, KNN을 사용하여 보팅 분류기 작성 import pandas as pd from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_..
-
Python 데이터분석 기초 59 - 일반화 모델을 위한 과적합 방지 방법Python 데이터 분석 2022. 11. 21. 13:17
1. train/test split 방법 2. Validation = train data를 쪼개 학습과 검정을 같이한다. 교차검증(cross validation) - train/test split을 해도 과적합 발생 또는 데이터의 양이 적은 경우 3. GridSearchCV = 최적의 모델을 찾아준다. ''' 일반화 모델을 위한 과적합 방지 방법 iris dataset을 사용 train/test split, KFold, GridSearchCV ''' from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score iris=load_iris..
-
Python 데이터분석 기초 58 - 의사결정나무(Decision Tree), 시각화Python 데이터 분석 2022. 11. 21. 11:22
# 의사결정나무(Decision Tree) # 의사결정나무는 데이터를 분석하여 이들 사이에서 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며, # 그 모양이 '나무'와 같다고 해서 의사결정나무라 불린다. # 질문을 던져서 대상을 좁혀나가는 '스무고개' 놀이와 비슷한 개념이다. # 의사결정나무는 분류(classification)와 회귀(regression) 모두 가능하다. 범주나 연속형 수치 모두 예측할 수 있다. # Entropy : 독립변수의 혼잡도. 0 ~ 1 사이의 값을 가지며 낮을수록 좋다. # Information Gain : 지정된 속성이 얼마나 잘 학습 데이터들 간 import pydotplus from sklearn import tree # 키와 머리카락의 길이로 남녀 구분 x = ..
-
decision tree 관련 설치Python 데이터 분석 2022. 11. 21. 10:44
https://graphviz.org/_pages/Download/Download_windows.html https://graphviz.org/download/ graphviz.org 위의 경로에서 다운로드 후 패스 걸어야 된다. 설치 완료되었다. 혹시나 안 될 경우는 이클립스를 껐다가 다시 켜주면 된다. C:\>pip install pydotplus C:\>pip install graphviz 아나콘다 프롬프트에서 위 설치 pit로 되지 않는 다면 아나콘다가 다운되어있기 때문에 conda 를 적어서 상용해 볼 수 있다.
-
Python 데이터분석 기초 57 - ROC curve, acc(정확도), recall(재현율), precision(정밀도), specificity(특이도), fallout(위양성률), fallout(위양성률)Python 데이터 분석 2022. 11. 18. 15:29
# ROC curve # ROC 커브는 모든 가능한 threshold에 대해 분류모델의 성능을 평가하는 데 사용됩니다. # ROC 커브 아래의 영역을 AUC (Area Under thet Curve)라 합니다. from sklearn.datasets import make_classification from sklearn.linear_model import LogisticRegression import pandas as pd import numpy as np from sklearn.metrics import confusion_matrix x, y = make_classification(n_samples = 100, n_features = 2, n_redundant = 0, random_state = 123..