분류 전체보기
-
Python 데이터분석 기초 46 - 회귀분석(선형회귀분석) 방법[make_regression, LinearRegression, ols]Python 데이터 분석 2022. 11. 10. 17:16
회귀분석(선형회귀분석) 각각의 데이터에 대한 잔차(예측값 - 실제값)제곱합이 최소가 되는 추세선(표준회귀선)을 만들고, 이를 통해 독립변수(x, feature)가 종속변수(y, label)에 얼마나 영향을 주는지 인과관계를 분석 독립변수 : 연속형, 종속변수 : 연속형. 두 변수는 상관관계가 있어야 하고, 나아가서는 인과관계가 있어야 한다. 정량적 모델을 생성 # 회귀분석(선형회귀분석) # 각각의 데이터에 대한 잔차(예측값 - 실제값)제곱합이 최소가 되는 추세선(표준회귀선)을 만들고, 이를 통해 # 독립변수(x, feature)가 종속변수(y, label)에 얼마나 영향을 주는지 인과관계를 분석 # 독립변수 : 연속형, 종속변수 : 연속형. 두 변수는 상관관계가 있어야 하고, 나아가서는 인과관계가 있어야..
-
Python 데이터분석 기초 45 - 관광정보 자료로 상관관계 분석(예제)Python 데이터 분석 2022. 11. 10. 15:35
# data.go.kr 제공 관광정보 자료로 상관관계 분석 # 미국, 중국, 일본 관광객이 국내 유료관광지(5대 궁) 방문관련 import json import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rc('font', family = 'malgun gothic') # 그래프 작성용 함수 def makeGraph(tour_table, all_table, tourPoint): # 계산할 관광지명에 해당하는 자료만 뽑아 외국인 관광객 자료와 합치기 tour = tour_table[tour_table['resNm'] == tourPoint] # print(tour) # resNm ForNum # yyyymm # 201101 창덕..
-
Python 데이터분석 기초 44 - 공분산 / 상관계수 예제Python 데이터 분석 2022. 11. 10. 12:21
# 공분산 / 상관계수 import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rc('font', family = 'malgun gothic') df = pd.read_csv('../testdata/drinking_water.csv') print(df.head(3)) # 표준편차 print(np.std(df['친밀도'])) print(np.std(df['적절성'])) print(np.std(df['만족도'])) # 공분산 print('공분산---') # numpy 이용(2개씩밖에 못 넣음) print(np.cov(df['친밀도'], df['적절성'])) print(np.cov(df['친밀도'], df['만족도'])) print..
-
Python 데이터분석 기초 43 - Python(공분산 / 상관계수)Python 데이터 분석 2022. 11. 10. 11:55
# 공분산 / 상관계수 import numpy as np import matplotlib.pyplot as plt # 공분산 예(공분산 구하기 np.cov() 함수) print(np.cov(np.arange(1, 6), np.arange(2, 7))) # 양의 관계 2.5 print(np.cov(np.arange(10, 60, 10), np.arange(20, 70, 10))) # 양의 관계 250 print(np.cov(np.arange(1, 6), (3,3,3,3,3))) # 0 print(np.cov(np.arange(1, 6), np.arange(6, 1, -1))) # 음의 관계 -2.5 # 공분산의 값이 양의 상관계수, 음의 상관계수인 것은 구했지만, 너무 값들이 다르기 때문에 그것을 1, 0..
-
Python 데이터분석 기초 42 - 머신 런닝이란?Python 데이터 분석 2022. 11. 10. 11:02
전통적인 프로그래밍은 사람에 의해 지속적으로 발전해온 알고리즘으로 논리와 절차를 이용한다. 예를 들어 윈도우 프로그래밍에 사용된 코드 라인 수는 억개 이상으로 알려져 있다. 하이테크한 프로젝트를 완성하는데는 고도의 논리적이고도 복잡한 과정을 통해 완성할 수 있다. 그러나 안타깝게도 지금까지의 절차적 방법으로는 이미지 분류에 있어서 손글씨 조차도 제대로 분류해 내기 힘들다. 그러므로 "고차원의 이미지 분류는 거의 불가능하다" 라고 할 수 있다. 이때 딥러닝을 사용하게 되는데 이는 대량의 입력 데이터를 학습시켜(최적의 W를 찾음) 일반화된 모델을 만들어 논리와 절차를 이용한 프로그래밍의 한계를 뛰어 넘을 수 있게 되었다.
-
Python 데이터분석 기초 41 - 이항검정(양측검정, 단측검정)Python 데이터 분석 2022. 11. 10. 10:14
이항검정 : 결과가 두 가지 값을 가지는 확률변수의 분포(이항분포)를 판단하는데 효과적. 정규분포는 연속변량인데 반해 이항분포는 이산변량 # 이항검정 : 결과가 두 가지 값을 가지는 확률변수의 분포(이항분포)를 판단하는데 효과적. # 정규분포는 연속변량인데 반해 이항분포는 이산변량 # binom test import pandas as pd import scipy.stats as stats # 귀무 : 직원을 대상으로 고객대응 교육 후 고객안내 서비스 만족율은 80%이다. # 대립 : 직원을 대상으로 고객대응 교육 후 고객안내 서비스 만족율은 80%가 아니다. data = pd.read_csv('../testdata/one_sample.csv') print(data.head(3)) print(data.su..
-
Python 데이터분석 기초 40 - 추론통계 분석 중 비율(value)검정Python 데이터 분석 2022. 11. 10. 09:53
추론통계 분석 중 비율검정 - 비율검정 특징 : 집단의 비율이 어떤 특정한 값과 같은지를 검증. : 비율 차이 검정 통계량을 바탕으로 귀무가설의 기각여부를 결정. one-sample : 비율이 제시된 경우 two-sample : 비율이 제시되지 않은 경우 # 추론통계 분석 중 비율검정 # - 비율검정 특징 # : 집단의 비율이 어떤 특정한 값과 같은지를 검증. # : 비율 차이 검정 통계량을 바탕으로 귀무가설의 기각여부를 결정. # # one-sample : 비율이 제시된 경우 # A회사에는 100명 중에 45명이 흡연을 한다. 국가 통계를 보니 국민 흡연율은 35%라고 한다. # 비율이 같냐? 비율의 동일여부를 검정하시오. # 귀무 : A회사의 흡연율과 국민 흡연율의 비율은 같다. # 대립 : A회사의..
-
Python 데이터분석 기초 39 - Two-way ANOVA(이원분산분석)Python 데이터 분석 2022. 11. 9. 18:00
Two-way ANOVA(이원분산분석) 요인 복수 - 각 요인의 데이터(그룹)도 복수이다. # Two-way ANOVA(이원분산분석) : 요인 복수 - 각 요인의 데이터(그룹)도 복수 import pandas as pd import urllib.request import matplotlib.pyplot as plt from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm import statsmodels.api as sm plt.rc('font', family = 'malgun gothic') url = "https://raw.githubusercontent.com/pykwon/python/master/test..