-
Python 문법 기초 36 - 웹 크롤링(Crawling)과 웹 스크래핑(Scraping)의 차이점Python 2022. 10. 23. 13:58
웹 크롤링(Crawling)과 웹 스크래핑(Scraping)의 차이점
멀티 프로세싱으로 웹 스크래핑
# 멀티 프로세싱으로 웹 스크래핑 # https://beomi.github.io/beomi.github.io_old/ import requests from bs4 import BeautifulSoup as bs import time def get_links(): # a tag의 주소를 읽기 data = requests.get("https://beomi.github.io/beomi.github.io_old/").text soup = bs(data, 'html.parser') # print(soup) my_titles = soup.select( 'h3 > a' ) data = [] for title in my_titles: data.append(title.get('href')) return data def get_content(link): # a tag에 의한 해당 사이트 문서 내용 중 일부 문자값 읽기 abs_link = 'https://beomi.github.io' + link print(abs_link) if __name__ == '__main__': start_time = time.time() # print(get_links()) # print(len(get_links())) for link in get_links(): get_content(link) print('처리시간 : {}'.format(time.time() - start_time)) <console> 나만의 웹 크롤러 만들기(4): Django로 크롤링한 데이터 저장하기 Django에 Social Login 붙이기: Django세팅부터 Facebook/Google 개발 설정까지 나만의 웹 크롤러 만들기(2): Login with Session Celery로 TelegramBot 알림 보내기 나만의 웹 크롤러 만들기(3): Selenium으로 무적 크롤러 만들기 나만의 웹 크롤러 만들기 with Requests/BeautifulSoup Django에 Custom인증 붙이기 Virtualenv/VirtualenvWrapper OS별 설치&이용법 [DjangoTDDStudy] #00: 스터디를 시작하며 CKEditor의 라이센스와 오픈소스 라이센스 [DjangoTDDStudy] #02: UnitTest 이용해 기능 테스트 하기 [React Native 번역]#01: 시작하기 ReactNative The Basis 번역을 끝냈습니다. [DjangoTDDStudy] #01: 개발환경 세팅하기(Selenium / ChromeDriver) Fabric Put 커맨드가 No Such File Exception을 반환할 때 해결법 [번역] 장고(Django)와 함께하는 Celery 첫걸음 Ubuntu14.04에 OhMyZsh 설치 Ubuntu14.04에서 Python3기반 virtualenvwrapper 설치 Chrome Native Adblockr 대체하기 Fabric for Python3 (Fabric3) Ubuntu14.04에서 pip로 mysqlclient 설치 실패시 CustoMac 설치 분투기 Windows에서 pip로 mysqlclient 설치 실패시(python3.4/3.5) mac OS X에서 pip virtualenvwrapper 설치 시 uninstalling six 에서 Exception 발생 시 맥에서 윈도RDP로 접속시 한영전환하기. pip로 mysqlclient설치 중 mac os x에서 egg_info / OSError 발생시 대처방법 처리시간 : 1.1857845783233643
반복문을 돌려서 해당 링크들의(https://beomi.github.io/beomi.github.io_old/) 제목들만 순서대로 출력하였다.
'Python' 카테고리의 다른 글
Python 문법 기초 37 - 멀티 채팅 서버 프로그램(socket + thread) (0) 2022.10.23 Python 문법 기초 35 - 멀티 thread(병렬구조) (0) 2022.10.23 Python 문법 기초 34 - thread(자원공유, 활성화/비활성화) (0) 2022.10.23 MariaDB 연동 예제 (0) 2022.10.22 Python 문법 기초 33 - MyriaDB 연동(명령어) (0) 2022.10.22