반응형
파이썬 웹 크롤링 / 네이버 첫화면 HTML 가져오기
- beautifulsoup Parser와 비교
HTML 가져오기 위한 라이브러리, Beautifulsoup를 가져오기 위한 라이브러리
HTML을 가져오기 위한 라이브러리는 urllib 이며, request 모듈을 이용한다. urllib은 내장 라이브러리로 별도 설치할 필요가 없습니다.
HTML을 가져와서 보기는 어려워 Parser를 이용해 HTML을 쉽게 파악할 수 있도록 파싱합니다.
Parser에는 여러 종류가 있겠지만, 잘 알려진 bs4 라이브러리의 Beautifulsoup 모듈을 이용해 봅니다.
"pip install bs4" 명령어로 설치할 수 있고, Pycharm을 사용한다면 아래와 같은 방법으로 설치합니다.
File > Settings > Project Interpreter > [+] > bs4 설치
네이버 첫화면 HTML 가져오기를 위한 코드
request 모듈을 이용해 naver의 url의 html을 가져옵니다.
그리고 가져온 html을 보기 편하도록 BeautifulSoup 모듈로 파싱합니다.
from bs4 import BeautifulSoup
import urllib.request as req
url = "https://naver.com"
res = req.urlopen(url).read()
soup = BeautifulSoup(res, 'html.parser')
print(res) #native html 출력
print(soup) #파싱된 html 출력
가져온 html과 파싱한 결과 비교
아래 결과를 보았을 때, html은 파싱하여 이용해야 하고, 다음엔 이 파싱된 부분을 가지고 이용하는 방법에 대해 다루어 보겠습니다.
파싱되지 않은 html
파싱한 html
반응형
'파이썬 > 파이썬 웹 크롤링' 카테고리의 다른 글
파이썬 웹 크롤링 / 네이버 현재 상영영화 정보 가져오기 (0) | 2021.08.25 |
---|---|
파이썬 웹 크롤링 / 네이버 영화 인기검색어 순위 가져오기 (0) | 2021.08.23 |
파이썬 웹 크롤링 / BeautifulSoup를 이용한 네이버 스포츠 야구 순위 정보 가져오기 (0) | 2020.07.31 |