-
one-sample t 검정 : 문제2(데이터 공백제거, to_numeric)Python 데이터 분석 2022. 11. 8. 10:05
[one-sample t 검정 : 문제2]
국내에서 생산된 대다수의 노트북 평균 사용 시간이 5.2 시간으로 파악되었다. A회사에서 생산된 노트북 평균시간과 차이가 있는지를 검정하기 위해서 A회사 노트북 150대를 랜덤하게 선정하여 검정을 실시한다.
실습 파일 : one_sample.csv
참고 : time에 공백을 제거할 땐 ***.time.replace(" ", "")
print('----------------------') # [one-sample t 검정 : 문제2] # 국내에서 생산된 대다수의 노트북 평균 사용 시간이 5.2 시간으로 파악되었다. # A회사에서 생산된 노트북 평균시간과 차이가 있는지를 검정하기 위해서 A회사 노트북 150대를 랜덤하게 선정하여 검정을 실시한다. # 귀무 : 국내에서 생산된 대다수의 노트북 평균 사용 시간이 5.2 시간이다. # 대립 : 국내에서 생산된 대다수의 노트북 평균 사용 시간이 5.2 시간이 아니다. # 실습 파일 : one_sample.csv # 참고 : time에 공백을 제거할 땐 ***.time.replace(" ", "") data = pd.read_csv("../testdata/one_sample.csv") data = data.replace(" ", "") print(data) print(data.info()) data.time = pd.to_numeric(data.time) # time의 type을 number 타입으로 바꾸기 print(data.describe()) data = data.dropna(axis = 0) print(data.time.mean()) # 5.556880 vs 5.2 차이? result2 = stats.ttest_1samp(data.time, popmean = 5.2) print('t-value : %.6f, p-value : %.6f'%result2) # 해석 : p-value: 0.000142 < 0.05 이므로 귀무가설 기각. 국내에서 생산된 대다수의 노트북 평균 사용 시간이 5.2 시간이 아니다. <console> no gender survey time 0 1 2 1 5.1 1 2 2 0 5.2 2 3 2 1 4.7 3 4 2 1 4.8 4 5 2 1 5 .. ... ... ... ... 145 146 1 1 5.4 146 147 2 1 5.3 147 148 1 1 6.5 148 149 1 1 6.2 149 150 2 1 5.9 [150 rows x 4 columns] <class 'pandas.core.frame.DataFrame'> RangeIndex: 150 entries, 0 to 149 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 no 150 non-null int64 1 gender 150 non-null int64 2 survey 150 non-null int64 3 time 150 non-null object dtypes: int64(3), object(1) memory usage: 4.8+ KB None no gender survey time count 150.000000 150.000000 150.000000 109.000000 mean 75.500000 1.526667 0.906667 5.556881 std 43.445368 0.500961 0.291874 0.944219 min 1.000000 1.000000 0.000000 3.000000 25% 38.250000 1.000000 1.000000 5.000000 50% 75.500000 2.000000 1.000000 5.500000 75% 112.750000 2.000000 1.000000 6.200000 max 150.000000 2.000000 1.000000 7.900000 5.5568807339449515 t-value : 3.946060, p-value : 0.000142
'Python 데이터 분석' 카테고리의 다른 글
Python 데이터분석 기초 34 - 서로 독립인 두 집단의 평균 차이 검정(independent samples t-test), 정규성, 등분산성 (0) 2022.11.08 one-sample t 검정 : 문제3 (0) 2022.11.08 one-sample t 검정 : 문제1 (0) 2022.11.08 기술통계의 대표값, 추론통계분석 모델의 비교(가설검정 방법의 종류, 추론통계 분석용 모델의 비교) (0) 2022.11.07 Python 데이터분석 기초 33 - 실습 예제 2, 3,4) 단일 표본 t 검정 (one-sample t- test) (0) 2022.11.07