분류 전체보기
-
Python 데이터분석 기초 11 - 일정 시간 마다 웹 문서 읽기Python 데이터 분석 2022. 11. 1. 13:08
# 일정 시간 마다 웹 문서 읽기 # import schedule # pip install schedule 스케쥴러 모듈 지원 import time import datetime import urllib.request as req from bs4 import BeautifulSoup import requests def work(): url = "https://finance.naver.com/marketindex/" # data = req.urlopen(url) # 방법 1, 데이터를 보낼 때 인코딩하여 바이너리 형태로 보낸다. data = requests.get(url).text # 방법 2, 데이터를 보낼 때 딕셔너리 형태로 보낸다. soup = BeautifulSoup(data, 'html.parser..
-
Python 데이터분석 기초 10 - 웹문서 읽기Python 데이터 분석 2022. 11. 1. 12:30
# 웹문서 읽기1 from urllib.request import urlopen import requests from bs4 import BeautifulSoup print('벅스 차트 출력하기 ---') url = urlopen("https://music.bugs.co.kr/chart") soup = BeautifulSoup(url.read(), 'html.parser') # print(soup) musics = soup.find_all('td', class_='check') # print(musics) for i, music in enumerate(musics): print("{}위 : {}".format(i + 1, music.input['title'])) # input 안의 title 속성 값 p..
-
Python 데이터분석 기초 9 - BeautifulSoupPython 데이터 분석 2022. 11. 1. 12:14
# BeautifulSoup 클래스가 제공하는 searching 관련 method from bs4 import BeautifulSoup html_page = """ 제목 태그 웹 문서 스크래핑 특정 페이지 문서 읽기 """ print(type(html_page)) soup = BeautifulSoup(html_page, 'html.parser') print(type(soup)) print(soup) print() h1 = soup.html.body.h1 print('h1:',h1) # innerTEXT 형식 print('h1:',h1.string) # innerHTML 형식 print('h1:',h1.text) # innerHTML 형식 print() p1 = soup.html.body.p print('..
-
Python 데이터분석 기초 8 - pandas(산술연산)Python 데이터 분석 2022. 10. 31. 12:19
print('산술 연산') s1 = pd.Series([1,2,3], index = ['a','b','c']) s2 = pd.Series([4,5,6,7], index = ['a','b','d','c']) print(s1) print(s2) print(s1 + s2) # -, *, / 다 사용 가능, index가 같은 index끼리 산술됨 print(s1.add(s2)) # sub, mul, div print() df1 = pd.DataFrame(np.arange(9).reshape(3,3), columns = list('kbs'), index = ['서울', '대전', '부산']) df2 = pd.DataFrame(np.arange(12).reshape(4,3), columns = list('kbs')..
-
Python 데이터분석 기초 7 - 색인(loc, iloc), 결측값 채우기, 순서 재배치Python 데이터 분석 2022. 10. 31. 11:23
# 색인 import pandas as pd import numpy as np # Series의 재색인 data = pd.Series([1, 3, 2], index = (1, 4, 2)) # index는 list, tuple, set 가능하다. print(data) print('순서를 재배치') data2 = data.reindex((1, 2, 4)) print(data2) print() data3 = data2.reindex([0, 1, 2, 3, 4, 5]) print(data3) # 없는 인덱싱을 넣으면 대응값이 없는 인덱스는 NaN(결측값)이 된다. data3 = data2.reindex([0, 1, 2, 3, 4, 5], method = 'pad') print(data3) # 이전 값으로 결측값..
-
Python 데이터분석 기초 6 - Pandas(Series) 2차원, 배열Python 데이터 분석 2022. 10. 31. 10:24
# Pandas # - 고수준의 자료구조(Series, DataFrame)와 빠르고 쉬운 데이터 분석용 자료구조 및 함수를 제공한다. # - NumPy의 고성능 배열 계산 기능과 스프레드시트 # - SQL과 같은 RDMBS의 유연한 데이터 조작 기능을 갖고 있다. # - 세련된 인덱싱 기능으로 쉽게 데이터를 재배치하여 집계 등의 처리를 편리하게 한다. import pandas as pd from pandas import Series, DataFrame import numpy as np # Series는 일련의 객체를 담을 수 있는 1차원 배열과 같은 구조로 색인을 갖는다. obj = Series([3, 7, -5, 4]) # obj = Series((3, 7, -5, 4)) # obj = Series({..
-
Python 데이터분석 기초 5 - 배열에서 조건 연산 where(조건, 참, 거짓) 3항 연산자, 배열 결합, 복원/비복원Python 데이터 분석 2022. 10. 28. 17:32
# 배열에서 조건 연산 where(조건, 참, 거짓) ... 3항 연산자 import numpy as np from dask.array import lib x = np.array([1,2,3]) y = np.array([4,5,6]) condionData = np.array([True, False, True]) result = np.where(condionData, x, y) # 참일 때는 x 거짓일때는 y값 나오도록 조건 설정 print(result) print() aa = np.where(x >= 2) print(aa) print(x[aa]) print(np.where(x >= 2, 'T', 'F')) print(np.where(x >= 2, x + 10, x * 5)) print('배열 결합') k..
-
Python 데이터분석 기초 4 - 배열에 행/열 추가, append, insert, deletePython 데이터 분석 2022. 10. 28. 17:31
# 배열에 행/열 추가 import numpy as np aa = np.eye(3) # 3열 3행 만들기 print(aa, aa.shape) print('열 추가----') bb = np.c_[aa, aa[2]] # 2번 열과 같은 값으로 열 추가 print(bb) print('행 추가----') cc = np.r_[aa, [aa[2]]] # 2번 행과 같은 값으로 행 추가 print(cc) print() a = np.array([1,2,3]) print('a = ', a) print(np.c_[a]) print(a.reshape(3,1)) # 3행 1열로 만들기 print('---append, insert, delete---') print(a) # b = np.append(a, [4,5]) b = np..