Python 데이터 분석
-
Python 데이터분석 기초 33 - 실습 예제 2, 3,4) 단일 표본 t 검정 (one-sample t- test)Python 데이터 분석 2022. 11. 7. 17:45
실습 예제 2) # 실습 예제 2) 단일표본 t 검정 (one-sample t-test) # 귀무 : 어느 한 집단의 자료들 평균은 0이다. # 대립 : 어느 한 집단의 자료들 평균은 0이 아니다. np.random.seed(1) mu = 0 n = 10 x = stats.norm(mu).rvs(n) # 랜덤한 데이터 10개 생성 print(x, np.array(x).mean()) # -0.0971408 # sns.displot(x, kde=True, rug = True) # kde = 선, rug = 밑의 그래프 # plt.show() result2 = stats.ttest_1samp(x, popmean = mu) # result2 = stats.ttest_1samp(x, popmean = 0.9) p..
-
Python 데이터분석 기초 32 - t-test(집단 간 차이분석: 평균 또는 비율 차이를 분석), 실습 예제 1) 단일 표본 t 검정 (one-sample t- test)Python 데이터 분석 2022. 11. 7. 16:48
집단 간 차이분석: 평균 또는 비율 차이를 분석 모집단에서 추출한 표본정보를 이용하여 모집단의 다양한 특성을 과학적으로 추론할 수 있다. T-test와 ANOVA의 차이 - 두 집단 이하의 변수에 대한 평균차이를 검정할 경우 T-test를 사용하여 검정통계량 T값을 구해 가설검정을 한다. - 세 집단 이상의 변수에 대한 평균차이를 검정할 경우에는 ANOVA를 이용하여 검정통계량 F값을 구해 가설검정을 한다. T-test는 표본수가 30미만일 때 사용한다. * 실습 예제 1) 단일 표본 t 검정 (one-sample t- test) 하나의 집단에 대한 표본평균이, 예측된 평균과 차이가 있는지 검증 # 집단 간 차이분석: 평균 또는 비율 차이를 분석 # : 모집단에서 추출한 표본정보를 이용하여 모집단의 다양..
-
카이제곱 검정 + 웹 연습 문제Python 데이터 분석 2022. 11. 7. 13:19
db에 있는 데이터 가져오기 models.py from django.db import models # Create your models here. class Survey(models.Model): rnum = models.AutoField(primary_key=True) gender = models.CharField(max_length=4, blank=True, null=True) age = models.IntegerField(blank=True, null=True) co_survey = models.CharField(max_length=10, blank=True, null=True) class Meta: managed = False db_table = 'survey' urls.py from django..
-
이원카이제곱 동질성 검정실습(2)Python 데이터 분석 2022. 11. 7. 11:30
이원카이제곱 동질성 검정 - 두 집단의 분포가 동일한가? 다른 분포인가? 를 검증하는 방법이다. 두 집단 이상에서 각 범주(집단) 간의 비율이 서로 동일한가를 검정하게 된다. 두 개 이상의 범주형 자료가 동일한 분포를 갖는 모집단에서 추출된 것인지 검정하는 방법이다. 동질성 검정 실습2) 연령대별 sns 이용률의 동질성 검정 20대에서 40대까지 연령대별로 서로 조금씩 그 특성이 다른 SNS 서비스들에 대해 이용 현황을 조사한 자료를 바탕으로 연령대별로 홍보 전략을 세우고자 한다. 연령대별로 이용 현황이 서로 동일한지 검정해 보도록 하자. # 이원카이제곱 # 동질성 검정 - 두 집단의 분포가 동일한가? 다른 분포인가? 를 검증하는 방법이다. 두 집단 이상에서 각 범주(집단) 간의 비율이 서로 # 동일한가..
-
이원카이제곱 동질성 검정실습(1)Python 데이터 분석 2022. 11. 7. 11:17
이원카이제곱 동질성 검정 - 두 집단의 분포가 동일한가? 다른 분포인가? 를 검증하는 방법이다. 두 집단 이상에서 각 범주(집단) 간의 비율이 서로 동일한가를 검정하게 된다. 두 개 이상의 범주형 자료가 동일한 분포를 갖는 모집단에서 추출된 것인지 검정하는 방법이다. 동질성 검정실습1) 교육방법에 따른 교육생들의 만족도 분석 - 동질성 검정 survey_method.csv # 이원카이제곱 # 동질성 검정 - 두 집단의 분포가 동일한가? 다른 분포인가? 를 검증하는 방법이다. 두 집단 이상에서 각 범주(집단) 간의 비율이 서로 # 동일한가를 검정하게 된다. 두 개 이상의 범주형 자료가 동일한 분포를 갖는 모집단에서 추출된 것인지 검정하는 방법이다. import pandas as pd import scipy..
-
가설검정 카이제곱 연습 문제(2)Python 데이터 분석 2022. 11. 7. 10:51
# 카이제곱 문제2) 지금껏 A회사의 직급과 연봉은 관련이 없다. # 그렇다면 jikwon_jik과 jikwon_pay 간의 관련성 여부를 통계적으로 가설검정하시오. # 예제파일 : MariaDB의 jikwon table # jikwon_jik (이사:1, 부장:2, 과장:3, 대리:4, 사원:5) # jikwon_pay (1000 ~2999 :1, 3000 ~4999 :2, 5000 ~6999 :3, 7000 ~ :4) # 조건 : NA가 있는 행은 제외한다. # 귀무 : 직급과 연봉은 관련이 없다. # 대립 : 직급과 연봉은 관련이 있다. import MySQLdb import pickle with open('mydb.dat', mode='rb') as obj: config = pickle.load(..
-
가설검정 카이제곱 문제 연습(1)Python 데이터 분석 2022. 11. 7. 10:21
import pandas as pd import scipy.stats as stats # 카이제곱 문제1) 부모학력 수준이 자녀의 진학여부와 관련이 있는가?를 가설검정하시오 # 예제파일 : cleanDescriptive.csv # 칼럼 중 level - 부모의 학력수준, pass - 자녀의 대학 진학여부 # 조건 : level, pass에 대해 NA가 있는 행은 제외한다. data1 = pd.read_csv("https://raw.githubusercontent.com/pykwon/python/master/testdata_utf8/cleanDescriptive.csv").dropna(subset = ['level','pass']) # NA 없애기 print(data1.head(3)) # print(dat..