분류 전체보기
-
Python 데이터분석 기초 31 - 가설검정 - 이원카이제곱, 교차분할표 이용(stats.chi2_contingency()) 예제Python 데이터 분석 2022. 11. 4. 17:36
# 이원카이제곱 - 교차분할표 이용 # : 두 개 이상의 변인(집단 또는 범주)을 대상으로 검정을 수행한다. # 분석대상의 집단 수에 의해서 독립성 검정과 동질성 검정으로 나뉜다. # 독립성(관련성) 검정 # - 동일 집단의 두 변인(학력수준과 대학진학 여부)을 대상으로 관련성이 있는가 없는가? # - 독립성 검정은 두 변수 사이의 연관성을 검정한다. # 실습 : 교육수준과 흡연율 간의 관련성 분석 : smoke.csv # 귀무 : 교육수준과 흡연율 간의 관련성이 없다. 서로 독립이다. # 대립 : 교육수준과 흡연율 간의 관련성이 있다. 서로 독립이 아니다. import pandas as pd import scipy.stats as stats data = pd.read_csv('../testdata/sm..
-
Python 데이터분석 기초 30 - 가설검정 - 일원카이제곱 이(stats.chisquare()) 예제 , 선호도 분석 실습Python 데이터 분석 2022. 11. 4. 16:30
# 카이제곱검정 중 일원카이제곱 # : 관찰도수가 기대도수와 일치하는 지를 검정하는 방법 # : 종류 : 적합도/선호도 검정 # - 범주형 변수가 한 가지로, 관찰도수가 기대도수에 일치하는지 검정한다. # 적합도 검정 # : 자연현상이나 각종 실험을 통해 관찰되는 도수들이 귀무가설 하의 분포(범주형 자료의 각 수준별 비율)에 얼마나 일치하는가에 대한 # 분석을 적합도 검정이라 한다. # : 관측값들이 어떤 이론적 분포를 따르고 있는지를 검정으로 한 개의 요인을 대상으로 함. # # 주사위를 60 회 던져서 나온 관측도수 / 기대도수가 아래와 같이 나온 경우에 이 주사위는 적합한 주사위가 맞는가를 일원카이제곱 검정 # 으로 분석하자 # 주사위 눈금 1 2 3 4 5 6 # 관측도수 4 6 17 16 8 9..
-
Python 데이터분석 기초 29 - # 가설검정 중 카이제곱(교차분석) 대립 가설 세워보기, 카이제곱이란?Python 데이터 분석 2022. 11. 4. 15:41
# 가설검정 중 카이제곱(교차분석) # 범주형 하나 또는 두 개의 변수 간의 상관관계를 측정 # 카이제곱 분포는 데이터의 분산이 퍼져있는 모습을 분포로 만든 것이다. # x² = sum((실제값 -기대값)² / 기대값) # 기대값 = 각행의 주변합 * 각열의 주변합 / 총합(전체표본수) # = (행의 합/전체표본수 * 열의합/전체표본수) * 전체 표본수 # 가정 # 귀무 가설 : 벼락치기 공부는 합격여부와 관련이 없다(독립적). - 정설 - # 대립 가설 : 벼락치기 공부는 합격여부와 관련이 있다(비독립적). - 대립 - import pandas as pd data = pd.read_csv('../testdata/pass_cross.csv', encoding='euc-kr') # utf-8이 안되면 eu..
-
Python 데이터분석 기초 28 - 점추정(point estimation), 구간추정(interval estimation), 귀무가설과 대립가설, 1종오류, p-value 개념Python 데이터 분석 2022. 11. 4. 11:25
추정은 크게 점추정과 구간추정으로 나눌 수 있다. 표본의 통계량을 가지고 모집단의 모수를 추리하는 것을 추정이라고 했다. 점추정(point estimation) 예를 들어 한국 성인 남자의 평균 키(모집단)를 파악하기 위해, 성인 남자 1000명을 표본으로 뽑아 키를 조사하였더니, 평균이 172.34cm가 나왔다고 할 때, 172.34cm처럼 하나의 수치, 즉 하나의 점으로 값을 표현하는 것이 점추정(point estimation)이다. 그런데 1000명을 대상으로 나온 수치가 172.34cm(통계량)라고는 하지만, 정말로 한국 성인 남자의 평균 키(모수)가 172.34cm일까? 아쉽지만 그 럴 확률은 거의 없다. 값을 신뢰하기에 표본의 수가 너무 적을 뿐 더러, 표본에는 항상 오차가 동반된다. 거기에 ..
-
Python 데이터분석 기초 27 - 기술 통계(일변량(one variable), 이변량(two variable))Python 데이터 분석 2022. 11. 4. 11:17
# 기술 통계 # - 자료를 정리 및 요약하는 기초적인 통계 # - 데이터 분석 전에 전체적인 데이터 분포의 이해와 통계적 수치 제공 # - 추론통계의 기초자료로 많이 쓰인다. # 기술통계량 유형 - 대표값, 산포도, 비대칭도 : 왜도, 첨도 # 기술 통계 분석 - 정보의 손실을 최대로 줄이면서 데이터를 효과적으로 요약할 수 있는 분석방법. # 돗수 분포표 : 특정 구간에 속하는 자료의 수를 나타내는 표 # 일변량(one variable) - 명목형 - 빈도 분석 import pandas as pd import matplotlib.pyplot as plt frame = pd.read_csv('../testdata/ex_studentlist.csv') print(frame) # csv파일을 불러와서 호출한..
-
Python 데이터분석 기초 26 - 웹 문서에서 검색된 자료 스크래핑 후 형태소 분석하고 난 다음 워드 클라우드 작성Python 데이터 분석 2022. 11. 3. 15:15
# 웹 문서에서 검색된 자료 스크래핑 후 형태소 분석하고 난 다음 워드 클라우드 작성 # donga.com에서 검색 # pip install pygame # pip install simplejson # pip install pytagcloud from bs4 import BeautifulSoup import urllib.request from urllib.parse import quote from konlpy.tag import Okt from collections import Counter # 카운팅 지원 모듈 import pytagcloud import matplotlib.pyplot as plt import matplotlib.image as mpimg # keyword = input('검색어 : ..
-
Python 데이터분석 기초 25 - 웹 문서를 읽어 형태소 분석(konlpy) 후 단어 빈도 수 등을 출력, Series, DataFrame 출Python 데이터 분석 2022. 11. 3. 13:12
# 웹 문서를 읽어 형태소 분석(konlpy) 후 단어 빈도 수 등을 출력 import urllib from bs4 import BeautifulSoup from konlpy.tag import Okt from urllib import parse # 한글 인고딩 okt = Okt() # searchPara = input('검색단어 : ') # 검색해서 사용 가능 searchPara = "이순신" searchPara = parse.quote(searchPara) # print(searchPara) # 웹에서 검색할 때는 인코딩을 해주어야 된다. url = "https://ko.wikipedia.org/wiki/" + searchPara # 검색단어가 아닌 인코딩해서 받아야 된다. # url = "https..
-
Python 데이터분석 기초 24 - # 한글 형태소 분석(지원 라이브러리 konlpy를 사용)Python 데이터 분석 2022. 11. 3. 12:25
# 한글 형태소 분석(지원 라이브러리 konlpy를 사용) # 5언 9품사로 한글 문서를 분리 from konlpy.tag import Kkma, Okt, Komoran kkma = Kkma() print(kkma.sentences('한글 데이터 형태소 분석을 위한 라이브러리 설치를 합니다. 행운을 빕니다.')) # 문장 단위 print(kkma.nouns('한글데이터형태소분석을위한라이브러리설치를합니다. 행운을 빕니다.')) # 명사만 # 한글을 붙여써도 라이브러리에서 알아서 정리해준다. print(kkma.pos('한글데이터형태소분석을위한라이브러리설치를합니다. 행운을 빕니다.')) # 품사 태깅(품사 부착) print(kkma.morphs('한글데이터형태소분석을위한라이브러리설치를합니다. 행운을 빕니다...