파이썬 21. 정적크롤링(request,beautifulsoup4)

대구 올빼미 2019. 12. 29. 10:28

2019. 12. 29. 10:28

# 질문에 답하기

크롤링 : 웹 페이지에 있는 자료를 자동으로 수집하는 프로그램

robots.txt : 검색엔진에게 어디까지 검색을 허용할 것이냐?
선행지식 : HTML에 대한 이해 CSS Selection을 만드는 방법
정적페이지 크롤링(페이지 소스보기에서 보여질 때)
- request와 beautifulsoup4를 이용해서 크롤링 및 해석한다.
동적페이지 크롤링(실시간으로 데이터가 바뀔 때)
- selenum혹은 ajax, josn을 이용하여 크롤링 및 해석한다.
정적페이지 동적페이지 확인 방법
- 본인이 크롤링 할려는 데이터가 페이지소스보기 했을 때 있는지 확인한다.
- 검사 및 셋팅(f1)에 들어가서 DEBUGGER의 disable javascript를 한후 새로고침을 해본다.
  - 데이터가 나오지 않으면 javascript를 통해 데이터를 받아온다.

주소를 입력하면 해당 서버로 접근한다.(url 필수)
웹서버 프로그램이 해당 주소에 맞는 내용을 전달한다.(by source code)
1. request라는 모듈을 이용한다.
2. request(urllib의 wrapper 클래스)
웹 브라우저는 받은 소스코드를 해석해서 화면에 보여준다.
1. 크롤러는 받은 내용을 해석해서 내가 원하는 데이터를 뽑아낸다.
  1. BeautifulSoup 모듈 이용
  2. 해석해서 : html 코드의 해석, CSS Selecter 만드는 방법
2. 웹브라우저와 크롤러의 차이

import requests
from bs4 import BeautifulSoup

웹 브라우저를 그대로 따라하기 때문에

크롤러자체는 불법이 아니나, 내가 크롤러로 무료로 취득한 정보를 바탕으로 돈을 벌면 불법이다.

selenum보다는 request가 훨씬 빠르다.
selenum : 웹 브라우저 자체를 컨트롤해서 크롤링
- 요소를 선택해서 사용자의 동작을 흉내낸다. : 클릭, 키보드 입력
- 선택자 xpath, css
- xpath : //*[@id="main_content"]/div[2]/div/dl/dt[2]/a
- css : #main_content > div.list_body.newsflash_body > div > dl > dt:nth-child(2) > a